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内 容 提 要 


Hive“ 出 身 名 门 ” 是 最 初 由 Facebook 公司 开发 的 数据 仓库 工具 。 它 简单 且 容易 上 手 ， 是 深入 学 习 Hadoop 
技术 的 一 个 很 好 的 切入 点 。 本 书 由 数据 库 专家 和 大 数据 专家 共同 撰写 , 具体 内 容 包括 : Hive 的 安 闫 和 配置 ， 
其 核心 组 件 和 架构 ，Hive 数据 操作 语言 ， 如 何 加 载 . 查 询 和 分 析 数 据 ，Hive 的 性 能 调 优 以 及 安全 性 ， 等 等 。 
本 书 旨 在 为 读者 打 牢 基础 ， 从 而 踏 上 专业 的 大 数据 处 理 之 旅 。 

本 书面 向 数据 科学 家 以 及 对 大 数据 技术 感 兴趣 的 读者 。 
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我 把 这 本 书 献 给 我 的 家 人 。 他 们 并 不 知道 我 从 事 何 种 工作 ， 却 容忍 我 一 天 到 晚 “ 玩 ”电脑 
爱 你 们 ! 
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我 将 这 本 书 献 给 我 的 家 人 和 我 害 智 的 导师 们 ， 感 谢 他 们 的 支持 。 特 别 感 谢 丹 尼 丝 和 劳伦斯 
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我 要 向 许多 见证 我 完成 这 本 书 的 人 表达 我 的 感激 之 情 。 最 重要 的 是 , AGER ET KY 
下 和 其 他 家 人 ， 尽 管 这 段 时 间 我 几乎 无 暇 照顾 他 们 ， 他 们 却 一 直 支 持 和 鼓励 着 我 。 
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“只 要 铀 而 不 舍 、 不 断 学 习 和 永恒 追求 ， 任 何人 都 能 成 为 伟人 。 ”一 -一 乔治 .巴顿 
WE + 杰 章 姆 加 德 


第 一 次 听 说 Hive 的 时 候 , 我 是 两 个 数据 仓库 项 目的 顾问 。 其 中 一 个 项 目 已 经 开发 了 6 个 月 。 
我 们 的 团队 有 12 名 顾问 ， 但 是 进展 甚 微 。 源 数据 库 是 关系 型 的 ， 但 是 由 于 某 些 未 知 原因 ， 所 有 
的 约束 ( 例如 主键 和 外 键 参照 关系 ) 都 被 关闭 了 。 总 而 言 之 , 这 样 的 源 数据 库 实际 上 是 非 关 系 型 
的 ,而 我 们 的 团队 则 努力 将 这 样 的 数据 迁移 到 高 度 结构 化 的 数据 仓库 中 。 我 们 努力 解决 空 值 问 题 
并 构建 约束 , 还 纠结 于 主 数据 管理 问题 和 数据 质量 问题 。 该 项 目 最 终 的 目标 就 是 建立 一 个 数据 仓 
库 ， 重 建 早 已 经 有 的 报表 。 

第 二 个 项 目的 规模 相对 较 小 ,但 是 涉及 层级 关系 ,例如 ,电视 机 有 品牌 名 称 、 存 货 单位 ( SKU )、 
产品 代码 和 数量 各 异 的 其 他 描述 性 特征 。 这些 特 征 中 有 一 些 是 动态 的 , 而 另 一 些 则 可 适用 于 一 个 
或 多 个 不 同 的 产品 或 品牌 。 各 个 品牌 在 特征 的 层次 结构 上 都 有 所 不 同 。 同 样 , 我 们 努力 在 一 个 关 
系 型 数据 仓库 中 描述 这 些 业 务 需 求 。 

第 一 个 项 目 所 面临 的 困难 体现 在 从 一 个 模式 迁移 到 另 一 个 模式 时 。 这 个 问题 必须 在 任何 人 
提出 任何 疑问 之 前 解决 ， 即便 这 样 , 这些 疑 问 也 必须 提前 知晓 。 第 二 个 项 目的 困难 则 出 现在 表达 
那些 无 法 与 既 有 的 数据 结构 融合 的 业务 规则 时 。 我 们 最 终 让 客户 更 改 了 他 们 的 业务 规则 ,以 适应 
该 结构 。 

当 我 第 一 次 将 文件 复制 到 HDFS 并 且 在 该 文件 之 上 创建 Hive 表 时 ， 我 为 这 种 解决 方案 的 简 
单 易 用 以 及 它 对 数据 分 析 的 深远 影响 而 赞叹 不 已 。 从 那 时 起 ， 我 见 过 一 些 使 用 Hive 的 数据 项 目 
从 设计 到 拥有 真正 的 分 析 价值 仅 需 几 周 时 间 ， 而 使 用 传统 方法 则 要 花费 数 月 。 对 于 数据 驱动 型 公 
司 和 那些 需要 解决 关键 业务 问题 的 公司 而 言 ，Hive 和 更 庞大 的 Hadoop 生态 系统 确实 是 规则 的 改 
ASH, 

本 书 的 目的 就 是 带 你 体验 我 所 经 历 过 的 顿悟 时 刻 , 旨 在 为 你 打 牢 基础 , 进而 探索 和 体验 Hive 
和 Hadoop 所 提供 的 功能 ， 帮 助 你 踏 上 技术 之 旅 ， 学 习 在 未 来 十 年 甚至 更 长 一 段 时 间 里 驱动 创新 
能 力 的 技术 。 要 在 技术 领域 生存 ， 你 必须 不 断 重 塑 自我 ， 因 为 技术 是 不 断 向 前 发 展 的 。 现 在 ， 这 
列 火 车 即将 启程 ， 欢 迎 乘 坐 ! 


早 在 加 入 Hortonworks 公司 之 前 ， 我 就 想 写 一 本 关于 Hive 的 书 。 那 时 候 有 关 Hive 的 书 比较 
少 ， 而 且 我 看 过 的 一 些 虽 然 技 术 讲 得 很 好 , 但 是 并 不 面 回 普通 用 户 , 尤其 是 来 和 目 关 系数 据 库 领域 
的 用 户 。 到 Hortonworks 公司 工作 以 后 ,我 感到 坐 下 来 写 这 本 书 变 得 容易 多 了 。 我 的 手边 有 最 优 
秀 的 资源 ， 而 且 可 以 接触 到 一 些 我 所 见 过 的 最 聪明 的 人 。 我 认识 了 像 艾 伦 … 盖 蒋 这样 的 Hive 代 
MEXA, 他 们 会 毫 不 犹 吏 地 回复 邮件 或 者 花 点 时 间 跟 我 在 会 议 上 交流 。 我 与 世界 上 最 棒 的 解决 
方案 工程 师 团 队 建 立 了 友谊 并 且 得 到 了 他 们 的 支持 。 然 而 过 了 近 两 年 半 , 我 还 是 没有 写 完 这 本 书 。 

我 没有 预料 到 这 个 市 场 的 发 展 速度 如 此 之 快 ,也 没有 预料 到 整个 团队 为 客户 提供 解决 方案 需 
要 投入 大 量 时 间 。 这 确实 是 一 项 令 人 钟爱 的 工作 , 但 是 为 了 兼顾 工作 和 家 庭 ,我 不 得 不 将 这 本 书 
的 写作 一 青 拖延 ,而且 拖 了 很 长 一 段 时 间 。 我 想 其 他 任何 一 家 出 版 社 都 会 放弃 我 再 找 别 人 , 但 是 
Apress 出 版 社 一 直 在 耐心 等 待 (虽然 我 不 能 说 他 们 一 点 都 没有 退却 ， 而 且 理应 如 此 )， 并 且 坚 信 
总 有 一 天 我 们 会 写 出 一 本 书 来 。 

写 一 本 关于 Hive 的 书 ， 其 艰难 之 处 在 于 : 如 果 你 的 写作 中 断 了 6 个 月 ， 那 么 你 就 要 写 一 本 
新 书 卫 。 我 意识 到 这 并 不 是 一 个 人 能 够 完成 的 工作 , 我 需要 帮助 。 安 库 尔 是 首先 站 出 来 帮助 我 的 
人 。 如 果 没 有 他 的 坚持 和 奉献 ， 就 不 会 有 这 本 书 。 也 是 安 库 尔 使 我 们 与 安 德 烈 亚 斯 取得 了 联系 ， 
我 相信 安 库 尔 会 同意 ， 如 果 没 有 安 德 烈 亚 斯 令 人 惊叹 的 写作 能 力 和 知识 水 平 ， 也 不 会 有 这 本 书 ， 
至 少 这 本 书 会 更 薄 一 些 , 你 从 中 获得 的 信息 量 会 大 大 减少 。 最后, 感谢 戴 维 ， 他 确定 了 本 书 的 技 
术 重 点 ， 对 于 去 元 存 精 起 到 了 至 关 重 要 的 作用 ， 指 引 我 们 一 路 回 前 。 

还 有 其 他 很 多 人 在 自己 有 限 的 时 间 里 尽 己 所 能 地 提供 了 帮助 。 微 软 CAT BIBAT C3 - 格 罗 
斯 在 早期 曾经 参加 了 本 书 的 撰写 , 帮助 推动 这 个 项 目前 进 。 感谢 安西 尔 承 担 了 非常 必要 的 技术 审 
校 工作 一 一 尤其 是 对 我 所 撰写 的 章节 。 要 特别 感谢 Hortonworks 公司 , 它 不 仅仅 支持 本 书 的 撰写 ， 
而 且 发 目 肺腑 地 为 此 激动 不 已 。Hortonworks 团队 并 不 仅仅 因为 这 是 一 本 关于 Hive 的 书 而 激动 ， 
他 们 是 为 我 们 这 个 作者 团队 所 取得 的 成 就 而 激动 。 我 从 未 被 迫 在 工 作 和 这 本 书 之 间 做 出 选择 , 专 
心 本 职工 作 是 我 自己 的 选择 。 

最 后 ， 感 谢 我 的 家 人 。 我 的 孩子 们 可 能 根本 不 需要 Hive, 但 是 我 知道 ， 他 们 认为 爸爸 能 参 
与 撰写 一 本 书 是 一 件 非常 酪 的 事 。 从 英语 专业 的 学 生 到 一 家 开源 大 数据 公司 的 解决 方案 工程 师 ， 
而 且 能 人 够 撰写 技术 类 图 书 ， 这 是 一 段 很 长 的 成 长 之 旅 。 环 顾 四 周 ， 我 感到 非常 知足 。 再 次 重申 ， 
我 与 业界 最 聪明 的 人 一 起 工作 ， 虽 然 他 们 的 才智 我 难以 望 其 项 背 , BERRA, RERE 
和 见解 会 使 我 成 为 一 个 更 加 优秀 的 人 。 
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到 现在 为 止 ， 任 何 有 一 丝 好 奇 心 的 技术 人 员 都 听 说 过 Hadoop， 这 是 在 办 公 室 闲聊 时 被 反复 
提 及 的 一 个 词 。 对 于 Hadoop 的 看 法 不 一 ， 从 “Hadoop 就 是 浪费 时 间 ” 到 “ 它 很 了 不 起 ,将 解决 
我 们 当前 的 所 有 问题 ”。 你 可 能 也 听 说 过 你 们 公司 的 董事 、 经 理 甚 至 首席 信息 官 让 团队 开始 实现 
这 种 新 生 的 大 数据 事物 ， 并 且 找 到 一 个 要 用 它 来 解决 的 问题 。 在 谈 到 大 数据 时 , 非 技 术 人 士 的 第 
一 反应 通常 是 :“ 噢 ， 你 是 说 像 NSA 那样 吗 ? ”这 无 疑问 ， 大 数据 带 来 了 重大 责任 ， 但 是 显然 ， 
如 果 对 大 数据 的 使 用 及 其 好 处 缺乏 认识 ， 将 会 滋生 不 必要 的 臣 惧 、 不 确定 和 怀疑 。 

实际 上 ， 你 在 看 这 本 书 就 说 明 你 对 Hadoop 感 兴趣 。 你 可 能 已 经 知道 Hadoop 能 让 你 存储 和 
处 理 大 量 数据 。 我 们 猜测 ， 你 也 认识 到 了 Hive 是 一 款 强大 的 工具 ， 人 允许 你 使 用 SQL 来 实现 熟悉 
的 数据 访问 操作 。 从 书 名 可 知 ， 这 本 书 是 关于 Hive 的 ， 它 会 告诉 你 Hive 在 访问 大 型 数据 存储 时 
是 多 么 重要 。 牢记 这 一 点 有 助 于 理解 我 们 为 何 撰写 本 书 。 我 们 已 经 有 了 像 TSQL 和 PL/SQL 这 样 
的 工具 ， 以 及 其 他 能 够 检索 数据 的 分 析 工 具 ， 为 什么 还 需要 Hive 呢 ? 在 现 有 环境 中 增加 更 多 需 
要 掌握 新 技能 的 工具 , 难道 没有 额外 的 资源 成 本 吗 ? 事实 上 ,我 们 认为 可 用 的 数据 是 不 断 变化 的 ， 
而 且 变 化 得 很 快 。 这 种 快速 的 变化 迫使 我 们 扩展 自己 的 工具 集 ， 不 能 局 限于 过 去 30 年 所 依赖 的 
TA. 我 们 将 在 后 面 的 章 市 中 看 到 ,我 们 确实 需要 改变 , 但 是 也 需要 利用 那些 早已 获得 的 成 就 和 

Hadoop 与 “大 数据 ”这 个 术语 几乎 同 义 。 在 我 们 看 来 ,，“ 大 数据 ”正在 慢 慢 地 走向 其 他 术语 
(例如 决策 支持 系统 和 电子 商务 ) 的 命运 。 当 人 们 将 “大 数据 ”作为 一 种 解决 方案 来 谈论 时 ， 他 
们 通常 是 从 市 场 营销 的 视角 来 看 问题 的 , 而 不 是 从 一 种 工具 或 者 能 力 的 视角 。 我 记得 与 一 位 高 层 
管理 人 员 会 面 时 ， 他 坚决 要 求 我 们 不 要 在 讨论 中 使 用 “大 数据 ”这 个 术语 。 我 同意 了 ， 因 为 我 觉 
得 这 个 术语 会 冲淡 谈话 的 主题 , 使 我 们 更 关注 于 通用 术语 而 没有 触及 技术 的 变革 本 质 。 但 是 话 又 
说 回来 ， 数 据 确 实在 变 大 ， 而 我 们 不 得 不 从 某 个 地 方 开始 讨论 这 个 话题 。 

我 的 观点 是 : Hadoop 最 初 是 一 种 用 于 解决 特定 问题 的 技术 。 它 在 不 断 演 化 ， 而 且 演 化 的 
速度 比 负 子 里 果 蝇 的 繁殖 速度 还 快 。 它 已 经 演变 成 一 种 核心 技术 , 正在 改变 企业 看 待 其 数据 的 方 
式 一 一 如 何 使 用 数据 ， 如 何 深 入 理解 所 有 数据 一 一 以 解决 特定 业务 需求 并 获得 范 争 优势 。 用 于 处 
理 数据 的 现 有 模型 和 方法 论 正 不 断 受到 挑战 。 随 着 不 断 演进 并 日 越 来 越 被 认可 ，Hadoop 从 一 种 
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小 众 的 解决 方案 转变 为 每 个 企业 都 能 从 中 获取 价值 的 解决 方案 。 再 从 另外 的 角度 想 想 。 现 在 的 日 
笛 技 术 都 是 基于 专门 的 需求 创造 出 来 的 ,例如 军事 需求 。 我 们 认为 理所当然 的 东西 ， 比 如 胶带 和 
GPS， 都 是 首先 针对 特定 军事 需求 而 开发 的 。 为 什么 会 这 样 ? 创新 至 少 需要 3 个 要 素 : 一 种 迫 在 
眉 睫 的 需求 ,一 个 可 以 识别 的 问题 ,还 有 金钱。 军队 是 庞大 而 复杂 的 组 织 , 拥有 人 才 、 人 金钱 、 资 
源 以 及 发 明 这 些 日 常用 品 的 需求 。 显然 , 军队 为 自己 使 用 而 发 明 的 产品 和 零售 商店 里 的 产品 往往 
不 太一 样 。 后 者 经 过 改良 、 推 广 和 精心 打磨 ， 以 供 日 党 使 用 。 随 着 我 们 深入 了 解 Hadoop， 要 注意 
与 此 相同 的 过 程 : 那些 独特 且 紧 紧 聚 焦 于 某 一 需求 的 发 明 将 不 断 演进 , 以 满足 更 广泛 的 企业 需求 。 

如 果 要 将 Hadoop 和 大 数据 比 作 什 么 ， 可 以 将 它们 视 为 一 段 旅程 。 很 少 有 公司 在 创立 之 初 就 
需要 含有 1000 个 节点 的 集群 ， 也 不 会 轻易 决定 在 这 样 的 平台 上 运行 关键 业务 。 企 业 会 经 历 一 段 
可 预测 的 旅程 ,时 间 从 几 个 月 到 几 年 不 等 。 硕 望 本 书 能 够 帮助 你 开始 自己 的 旅程 ,并 且 有 助 于 盖 
明 整 个 旅程 的 具体 步 又。 第 1 章 介绍 了 Hadoop 世界 为 什么 与 众 不 同 ， 以 及 它 的 由 来 。 本 草 为 稍 
后 的 讨论 奠定 了 基础 。 在 学 习 具 体 的 技术 之 前 ， 你 将 了 解 Hadoop 平台 ， 也 将 明白 开源 模型 为 何 
ante AS HEBA Po RETE 
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2003 Œ, Google 公司 发 表 了 一 篇 并 不 引 人 注 目的 论文 ,题目 为 “The Google File System”。 
在 硅谷 之 外 并 没有 多 少 人 关注 这 篇 论文 的 发 表 和 它 试 图 传达 的 信息 。 这 篇 论文 所 包含 的 信息 可 直 
接 用 于 像 Google 这 样 的 公司 ， 其 主要 业务 聚焦 于 对 互联 网 进行 索引 ， 而 对 于 大 多 数 公司 来 说 ， 
这 并 不 是 一 个 常见 的 用 例 。 这 篇 论文 描述 了 一 种 独特 的 存储 框架 ， 是 为 解决 Google 公司 今后 的 
技术 需求 而 设计 的 。 本 着 TL&DR" 的 精神 ， 这 里 给 出 其 最 突出 的 观点 : 

OQ 故障 是 常态 

O 文件 很 大 

O 文件 通过 追加 来 更 改 ， 而 不 是 通过 更 新 来 更 改 

OQ 紧 厢 合 的 应 用 程序 和 文件 系统 API 

如 果 你 打算 成 就 一 家 规模 达 数 十 亿美 元 的 互联 网 搜索 公司 ,上 述 假设 大 多 都 有 意义 。 你 将 主 
要 关心 大 文件 的 处 理 , 以 及 以 低 延 迟 的 代价 连续 进行 长 时 间 的 读 写 操作 。 你 也 会 想 把 自己 的 海量 
存储 需求 分 散 到 〈 廉价 的 ) 商用 硬件 上 ， 这样 就 不 需要 建立 代价 高 郧 的 资源 竖 塔 。 数据 摄 入 需要 
格外 关注 , 在 写 人 时 对 这 些 数据 结构 化 (模式 化 ) 只 会 延迟 处 理 过 程 。 你 还 需要 安排 一 个 由 世界 
顶级 开发 人 员 组 成 的 团队 ， 构 建 可 伸缩 、 分 布 式 且 高 可 用 的 解决 方案 。 

Yahoo 注意 到 了 这 篇 论文 。 他 们 在 互联 网 搜索 领域 面临 着 类 似 的 伸缩 性 问题 ， 并 且 使 用 了 由 
Doug Cutting 和 Mike Cafarella 创建 的 一 个 名 为 Nutch 的 应 用 程序 。Google 的 那 篇 论文 为 Doug 和 
Mike 提供 了 一 个 框架 ， 可 解决 Nutch 架构 中 很 多 固有 的 问题 ， 其 中 最 重要 的 是 可 伸缩 性 和 可 靠 
性 。 而 接 下 来 需要 进行 的 就 是 对 基于 Google 的 论文 设计 的 解决 方案 重新 进行 工程 实现 。 


(D 互联 网 用 语 ， 意 思 是 “篇 幅 太 长 ， 不 再 阅读 "。 一 一 译 者 注 
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注意 ”请 记 住 ， 最 初 的 GFS (Google 文件 系统 ) 和 发 展 成 为 Hadoop 的 这 部 分 技术 并 不 相同 。 
GFS 是 一 个 框架 ， 而 Hadoop 则 是 将 该 框架 付 诸 实施 。GFS 仍然 是 Google 专 有 的 ， 也 就 
是 说 ， 它 并 不 是 开源 的 。 
当 我 们 提起 Hadoop 时 ， 经 常会 想到 Google 公司 的 那 篇 论文 中 有 关 存 储 占 的 那 一 部 分 概述 。 
实际 上 ， 这 个 等 式 的 男 一 半 ( 更 为 重要 ) 是 Google 公司 在 2004 年 发 表 的 题 为 “MapReduce: 
Simplified Data Processing on Large Clusters” 的 论文 。 这 篇 论文 采用 一 种 被 称 作 “ 易 并 行 ” 
( embarrassingly parallel ) 的 方法 ， 将 大 型 分 布 式 集群 上 的 数据 存储 与 该 数据 的 处 理 相 结合 。 
注意 ”对 MapReduce 的 讨论 将 贯穿 全 书 。MapReduce 在 交互 式 SQL 查询 处 理 中 既是 一 个 意义 重 
大 的 角色 ， 也 是 一 个 日 益 走向 衰落 的 角色 ， 


Doug Cutting 和 Yahoo 的 其 他 一 些 人 看 到 了 GFS 和 MapReduce 对 Yahoo A SAA BIAS UME, 
因此 从 Nutch 剥离 出 一 个 单独 的 项 目 ,-Doug 用 他 儿子 的 玩具 小 象 的 名 字 Hadoop 来 命名 这 个 项 目 。 
尽管 这 个 名 字 很 可 爱 , 但 是 项 目 本 里 还 是 很 严肃 的 ,而且 Yahoo 打算 推广 它 , 用 它 来 满足 搜索 引 
你 以 及 广告 业务 方面 的 需求 。 


ee 


注意 Hadoop 社区 流传 着 一 个 笑话 : 如 果 你 将 产品 命名 权 交 给 工程 部 门 而 不 是 市 场 营销 部 门 ， 

那么 就 会 得 到 类 似 于 Hadoop, Pig. Hive. Storm, Zookeeper 和 Kafka 这 样 的 名 字 。 我 个 

人 喜欢 那些 看 起 来 思春 但 是 能 够 解决 复杂 实际 问题 的 应 用 程序 。 至 于 那 只 Hadoop 小 象 的 

iE, Doug 现在 仍然 随身 带 着 它 参 加 各 种 演讲 活动 。 
Hadoop 在 Yahoo 公司 内 部 的 规模 增长 并 不 典型 ， 但 是 对 于 当前 很 多 实现 的 模式 来 说 ， 它 是 
一 个 典范 。 在 Yahoo 的 案例 中 ,最 初 的 开发 只 能 扩展 到 少数 几 个 节点 ， 但 是 几 年 之 后 ， 就 可 以 扩 
展 到 数 百 个 节点 了 。 随 着 集群 的 增长 和 扩展 ,系统 摄 人 了 越 来 越 多 的 企业 数据 , ZA BE 
开始 被 打破 , 用 户 也 开始 从 数据 中 发 现 更 多 的 价值 。 随 着 所 有 职能 领域 的 壁垒 都 被 打破 ,更 多 的 
数据 被 迁移 到 集群 中 。 一 个 有 着 美好 目标 的 事物 很 快 成 了 整个 组 织 的 核心 和 灵魂 ， 更 恰当 地 说 ， 
成 了 整个 组 织 的 存储 和 分 析 引 擎 。 正 如 一 位 作者 所 述 : 

2011 年 ， 当 Yahoo 将 Hortonworks 分 拆 为 一 家 独立 的 、 专 注 于 Hadoop 的 软件 公司 
时 ，Yahoo 的 Hadoop 基础 设施 已 经 拥有 了 42 000 个 节点 和 数 百 PB 的 存储 空间 。 
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Hadoop 通常 包含 两 个 部 分 : 存储 和 处 理 。 存 储 部 分 就 是 Hadoop 分 布 式 文件 系统 ( HDFS ), 
处 理 就 是 指 MapReduce ( MR )。 | 
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注意 在 本 书 完成 之 际 , 这 一 环境 正在 改变 。MapReduce 现在 只 是 在 HDFS 之 上 处 理 Hive 的 一 
种 方式 。MapReduce 是 一 种 传统 的 面向 批量 任务 的 处 理 框 架 。 像 Tez 这 样 的 新 处 理 引 擎 
越 来 越 倾向 于 近 实 时 的 查询 访问 。 随 着 YARN 的 出 现 ，HDFS 正 日 益 成 为 一 个 多 租户 环 
境 ， 允 许 很 多 数据 访问 模式 ， 例 如 批量 访问 、 实 时 访问 和 交互 访问 。 


当 我 们 考虑 到 常规 文件 系统 的 时 候 , 会 想到 像 Windows 或 Linux 这 样 的 操作 系统 。 这些 操 作 
系统 都 安装 在 运行 重要 应 用 程序 的 单 台 计算 机 上 。 如 果 我 们 通过 网 络 将 50 台 计 算 机 连接 到 一 起 ， 
会 发 生 什 么 呢 ? 我 们 仍然 有 50 个 不 同 的 操作 系统 ， 如 果 我 们 想 要 运行 单个 应 用 程序 来 使 用 它们 
所 有 的 计算 能 力 和 资源 ， 这 种 方式 对 我 们 没有 多 少 帮 助 。 

例如 ， 我 正在 微软 的 Word 软件 中 输入 这 些 内 容 ， 该 软件 只 能 在 单 操作 系统 和 单 台 计算 机 上 
安装 和 运行 。 如 果 想 提高 Word 应 用 程序 的 运算 性 能 ， 那 么 我 别 无 选择 ， 只 能 给 我 的 计算 机 增加 
CPU 和 RAM。 问 题 在 于 ， 我 所 能 增加 的 CPU 和 RAM 的 数量 是 有 限制 的 。 我 很 快 就 会 达到 单 台 
设备 的 物理 极限 。 

HDFS 则 做 了 一 些 独特 的 事情 。 你 可 以 选取 50 台 计 算 机 并 且 在 每 一 台 上 都 安装 一 个 操作 系 
统 (如 Linux )。 在 用 网 络 将 它们 连接 起 来 之 后 ， 你 在 所 有 计算 机 上 都 安装 HDFS, 并且 将 其 中 一 
台 计 算 机 声明 为 主 节点 , 将 其 他 所 有 计算 机 都 声明 为 工作 节点 。 这 样 你 就 构建 了 HDFS 集群 。 现 
在 ， 当 你 将 文件 复制 到 某 个 文件 夹 中 时 ，HDFS 会 自动 将 文件 的 各 个 部 分 存放 在 集群 的 多 个 节点 
上 。HDFS 成 为 Linux 文件 系统 之 上 的 一 个 虚拟 文件 系统 ， 它 抽象 了 你 在 集群 的 多 个 节点 上 存储 
数据 的 事实 。 图 1-1 从 整体 上 说 明了 HDFS 如 何 从 客户 端 抽象 出 多 个 系统 。 


图 1-1 HDFS 的 简单 视图 
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图 1-1 非 党 简单 ， 展 示 了 最 基本 的 视图 (将 在 1.3.2 节 详 细 说 明 )。 最 重要 的 一 点 是 ， 现 在 的 
增长 能 力 是 水 平 的 而 不 是 垂直 的 。 与 为 单 台 设备 添加 CPU BK RAM 不 同 ,你 只 需要 增加 一 台 设 备 ， 
也 就 是 一 个 节点 。 线性 可 伸缩 性 允许 你 基于 自己 扩大 的 资源 需求 快速 扩展 自己 的 能 力 。 敏锐 的 读 
者 很 快 就 会 争辩 说 , 通过 虚拟 化 也 可 以 获得 类 似 的 优势 。 那么 让 我 们 用 虚拟 化 的 视角 来 看 待 同一 
问题 。 图 1-2 展示 了 这 样 一 个 虚拟 化 架构 。 


图 1-2 虚拟 化 架构 


管理 员 在 服务 化 〈 大 多 数 情况 下 是 一 个 服务 需 集 群 ) 上 安装 虚拟 管理 软件 。 该 软件 集中 了 
CPU 和 内 存 这 样 的 资源 , 这 样 看 起 来 就 像 有 一 台 有 着 大 量 资源 的 服务 顺 。 在 虚拟 操作 系统 层 上 有 
多 个 客户 ， 可 以 将 可 用 的 资源 池 划 分 给 每 个 客户 使 用 。 这 样 做 的 好 处 包括 : IO 资源 的 最 大 化 、 
宽 源 的 动态 供应 ， 以 及 物理 集群 层 的 高 可 用 性 。 存 在 的 问题 则 包括 : 对 SAN 存储 器 的 依赖 、 不 
能 进行 水 平 扩 展 、 垂 直 扩 展 存在 限制 ， 以 及 对 多 操作 系统 安装 存在 依赖 等 。 目 前 大 多 数 数据 中 心 
部 采用 这 种 模式 ， 而 且 在 过 去 10 多 年 里 ， 虚 拟 化 一 直 是 IT 界 的 主流 趋势 。 


注意 图 1-2 中 用 到 了 术语 ESX。 我 们 当然 并 不 特 指 VMWare。 我 们 给 出 虚拟 化 的 架构 只 是 为 
了 说 明 Hadoop 如 何 从 根本 上 改变 了 数据 中 心 的 模式 ,以 满足 独特 的 现代 数据 需求 。 对 于 
很 多 用 例 来 说 ， 私 有 云 虚 拟 化 仍然 是 一 种 可 行 的 技术 ， 而且 应 该 与 其 他 架构 ( 如 设备 或 
公有 云 ) 放 在 一 起 考虑 。 
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Hadoop 的 其 他 优势 还 包括 降低 能 源 消耗 以 及 减少 物理 服务 需 的 占用 和 动态 供应 。Hadoop i$; 
要 与 保持 了 长 达 10 多 年 的 发 展 趋势 的 虚拟 化 架构 相 抗衡 ， 这 是 一 项 艰难 的 任务 。 企 业 这 些 年 来 
一 直 都 在 远离 物理 架构 , 在 减少 数据 中 心 的 物理 服务 需 数 量 上 取得 了 很 大 进展 。 如 条 在 扩展 文件 
系统 之 时 ，Hadoop 所 能 提供 的 只 是 添加 另 一 个 物理 节点 ， 那 么 我 们 也 就 没有 必要 写 这 本 书 了 ， 
而 Hadoop 也 将 重 蹈 Pets.com AY 7 Hit’. Hadoop 的 架构 还 有 更 多 特性 , 在 商业 上 具有 变 章 性 音义 ， 
值得 在 物理 架构 上 投入 。 


1.3 数据 元 余 


大 规模 的 数据 也 必须 是 高 可 用 的 。Hadoop 以 高 效 且 廉价 的 方式 存储 数据 。Hadoop 软件 架构 
内 置 了 一 些 机 制 ， 人 允许 我 们 采用 廉价 的 硬件 。 正 如 Google 公司 在 其 论文 中 所 说 的 ， 最 初 的 设计 
假定 节点 会 发 生 故 障 。 当 集群 水 平 扩展 到 数 百 、 数 千 甚 至 数 万 个 节点 时 ,我 们 别 无 选择 ， 只 能 假 
定 在 任意 给 定时 间 集 群 中 都 会 有 少量 服务 硕 出 现 放 障 。 

如 果 有 些 服务 器 的 故障 会 危害 整个 集群 的 安全 和 完整 性 , 就 会 抵消 HDFS 所 提供 的 任何 其 他 
好 处 ， 更 不 用 说 由 于 睡眠 不 足 而 导致 的 Hadoop 管理 员 流 失 。Google 和 Yahoo AY T FE/H HIMA XR 
巨 的 任务 ， 既 要 降低 成 本 又 要 增加 正常 运行 时 间 。 目 前 已 有 的 高 可 用 性 解决 方案 在 满足 他 们 的 再 
求 时 , 不 可 避免 地 会 使 公司 陷 人 硬件 成 本 、 软 件 成 本 和 维护 成 本 的 闪 渊 中 。 为 了 满足 他 们 的 震 求 ， 
有 些 事情 必须 改变 。Hadoop 成 了 解决 这 一 问题 的 方案 ， 但 是 首先 我 们 需要 了 解 为 什么 现 有 工具 
无 法 成 为 解决 方案 。 


1.3.1 传统 的 高 可 用 性 


当 我 们 想到 宛 余 的 时 候 ， 通常 都 会 想到 高 可 用 性 ( HA )。 高 可 用 性 是 一 种 架构 ， 它 描述 了 你 
访问 环境 的 频次 ,我 们 通常 用 “9” 的 形式 来 度量 高 可 用 性 ,我 们 可 以 说 目 己 的 运行 时 间 是 99.999， 
也 就 是 五 个 九 。 表 1-1 显示 了 基于 可 用 率 的 实际 停机 时 间 。 


表 1-1 可 用 率 概览 


可 用 率 每 年 停机 时 间 每 月 停机 时 间 每 周 停机 时 间 

90% (一 个 九 ) 36.5 天 72 小 时 16.8 小 时 
95% 18.25 X 36 小 时 8.4 小 时 
97% 10.96 K 21.6 小 时 5.04 小 时 
98% 7.3 X 14.4 小 时 3.36 小 时 
99% ( 两 个 九 ) 3.65 天 7.2 小 时 1.68 小 时 
99.5% 1.83 天 3.6 小 时 50.4 4} 
99.8% 17.52 小 时 86.23 分 20.16 分 
99.9% ( —^ JL) 8.76 小 时 43.8 分 10.1 分 


(D Pets.com 是 一 家 短命 的 互联 网 公司 。 一 一 译 者 注 


1.3 KENTE 7 


( £ ) 
可 用 率 每 年 停机 时 间 每 月 停机 时 间 每 周 停机 时 间 

99.95% 4.38 小 时 21.56 分 5.04 分 
99.99% ( 四 个 九 ) 52.56 分 4.32 分 1.01 分 
99.995% 26.28 分 2.16 4} 30.24 秒 
99.999% ( 五 个 九 ) 5.26 ^Y 25.9 秒 6.05 Fb 
99.999994 ( 六 个 九 ) 31.5 秒 2.59 秒 0.605 秒 
99.99999% ( 七 个 九 ) 3.15 秒 0.259 秒 0.0605 Fb 
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组 被 动 系统 ， 以 备 在 主 系统 出 现 故障 时 使 用 。 大 多 数 集群 基础 设施 都 采用 这 种 模式 。 你 可 能 有 一 
个 主 节点 和 任意 数量 的 副 节 点 ， 其 中 含有 复制 的 应 用 程序 二 进 制 文件 以 及 用 于 集群 的 特定 软件 。 
一 旦 主 市 点 发 生 故障 ， 副 节点 就 会 马上 接管 。 


注意 ”你 可 以 选择 建立 一 个 双 活 式 集群 ， 这 其 中 的 两 个 系统 都 在 用 。 从 资源 的 视角 来 看 ， 你 的 
成 本 仍然 很 高 ， 因 为 当 出 现 故障 之 后 ， 你 可 能 需要 解决 两 个 系统 的 应 用 程序 在 同一 台 服 
务 器 上 运行 的 问题 。 


快速 故障 恢复 可 使 停机 时 间 最 小 化 , 而 且 如 果 正 在 运行 的 应 用 程序 是 集群 感知 型 的 , 可 以 解 
决 会 话 终止 的 情形 ,最 终 用 户 根本 就 不 会 意识 到 系统 已 经 出 现 了 故障 ,虚拟 化 就 采用 了 这 种 模型 。 
物理 主机 一 般 是 由 3 个 或 者 更 多 系统 构成 的 集群 ,其 中 一 个 系统 是 被 动 式 的 , 它 在 活动 系统 出 现 
故障 时 负责 接管 控制 。 虚拟 客户 可 以 跨 系统 迁移 , 而 且 客 户 端 甚至 并 未 意识 到 操作 系统 已 经 迁移 
至 其 他 服务 器 。 该 模型 也 有 助 于 维护 工作 ,例如 应 用 更 新 、 打 补丁 或 者 更 换 硬件 。 管理 员 在 副 系 
统 上 进行 维护 ， 然 后 将 副 系 统 切 换 成 主 系 统 ， 再 对 原 系统 进行 维护 。 私 有 云 采 用 了 类 似 的 框架 ， 
在 大 多 数 情 况 下 ， 在 集群 中 都 有 一 个 空闲 服务 器 ， 主 要 用 于 替换 出 现 故 障 的 集群 节点 。 图 1-3 展 
示 了 典型 的 集群 配置 。 


图 1-3 市 有 共享 存储 的 两 节点 集群 配置 
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,这 种 模式 的 成 本 会 很 高 。 集 群 需要 共享 存储 架构 , 通常 由 一 个 SAN 基础 设施 提供 服务 。 SAN 
可 以 存储 大 规模 数据 ， 但 是 其 建设 和 维护 成 本 很 高 。SAN 独立 于 服务 器 存在 ， 因 此 数据 需要 通 
过 网 络 接口 进行 传输 。 而 且 ，SAN 将 随机 IO 和 顺序 IO 混合 在 一 起 ， 这 意味 着 所 有 的 IO 都 是 随 
机 的 。 最 后 ， 管 理 员 将 大 多 数 集群 配置 为 活动 /和 被动式。 处 于 被 动 待命 状态 的 服务 器 一 直 不 被 使 
用 ， 直 到 出 现 故障 为 止 。 在 这 种 情况 下 ， 硬 件 成 本 会 加 倍 ， 但 是 可 用 资源 却 不 会 加 倍 。 

存储 需 厂 商 采用 了 很 多 方法 来 保持 存储 需 的 高 可 用 性 , 或 者 说 存储 元 余 。 最 常见 的 方法 就 是 
使 用 RAID (独立 磁盘 元 余 阵列 ) 配置 。 表 1-2 给 出 了 最 常用 的 RAID 等 级 。 


表 1-2 最 常用 的 RAID 等 级 


RAID 等 级 描 $ * f 
RAID 0 条 带 阵列 无 

RAID 1 镜像 阵列 — Rit 

RAID 5 带 奇 偶 校 验 的 条 带 -Hi 

RAID 1+0 A BER 一 个 镜像 中 的 多 块 盘 


RAID 之 所 以 流行 ， 是 因为 它 提 供 了 数据 保护 并 且 针 对 大 多 数 工作 负载 提升 了 性 能 。 例 如 ， 
RAID 0 并 不 提供 数据 保护 , 但 是 由 于 增加 了 磁盘 驱动 器 的 数量 而 加 快 了 写 人 速度 。 与 集群 一 样 ， 
RAID 也 需要 付出 代价 。 在 镜像 RAID 配置 的 情况 下 ， 你 要 单独 留 下 一 块 专用 盘 用 于 数据 恢复 。 
系统 使 用 这 块 副 盘 只 是 为 了 复制 写 人 的 数据 。 这 个 过 程 会 降低 写 人 速度 , 而 且 在 加 倍 成 本 的 同时 
并 没有 使 存储 容量 加 倍 。 要 实现 一 个 5TB 的 镜像 盘 RAID ， 你 需要 购买 10TB 的 存储 器 。 大 多 数 
企业 和 硬件 厂商 都 不 会 在 服务 器 架 构 中 实现 RAID 0 或 RAID 1。 

像 EMC 和 NetApp 这 样 的 存储 器 厂商 采用 RAID 1+0 ( RAID 10) 来 配置 其 SAN 环境 。 这 满 
足 了 高 可 用 性 存储 器 需求 , 提升 了 性 能 。 对 于 含有 数 十 个 阵列 且 阵 列 中 含有 6 个 或 更 多 驱动 器 的 
大 型 SAN 环境 来 说 ， 这 种 方式 运行 良好 。 这 些 阵 列 被 划分 成 若干 个 逻辑 单元 号 ， 提 供给 服务 器 
使 用 。 然 后 ， 这 些 就 变 成 了 你 的 挂 载 点 或 者 Windows 的 标准 驱动 器 盘 符 。 


注意 ”请 耐心 一 点 。 围 绕 SAN fe RAID 存储 器 的 讨论 可 能 看 起 来 平淡 无 奇 ， 但 是 理解 传统 的 存 
储 器 设计 将 会 帮助 你 理解 Hadoop 的 存储 结构 。 在 过 去 的 20 年 中 ，SAN 和 RAID 的 使 用 
已 经 形成 事实 上 的 标准 , 当 在 数据 中 心里 使 用 Hadoop 时 ,消除 这 种 偏见 是 一 个 主要 障碍 


因此 ，SAN 本 质 上 是 拥有 多 个 磁盘 阵列 并 且 由 一 个 中 央 控 制 台 管 理 的 大 型 容器 。 公 司 购买 
了 一 人 台 服 务 器 ， 然 后 将 它 配 备 在 数据 中 心里 ， 为 其 提供 最 少 的 存储 ( 通常 是 一 个 小 型 DAS f) 
来 安装 操作 系统 ， 并 且 通 过 网 络 将 其 连接 到 SAN 基础 设施 上 。 对 于 应 用 程序 来 说 ， 不 论 是 商用 
应 用 程序 还 是 数据 库 ， 都 要 从 SAN 请 求 数据 ， 然 后 通过 网 络 传输 数据 并 在 服务 器 上 进行 处 理 
SAN 变 成 了 一 种 集成 式 存储 基础 设施 , 可 以 对 数据 进行 分 发 而 很 少 ( 甚至 不 需要 ) 关注 IO 处 理 
在 SAN 之 上 附加 的 高 可 用 性 、 许 可 证 和 管理 组 件 都 大 大 增加 了 每 TB 的 成 本 。 

SAN 技术 已 有 很 多 改进 ， 例 如 更 快 的 网 络 互 连 和 内 存 缓存 。 但 是 尽管 有 这 么 多 进步 ，SAN 
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的 主要 目的 从 来 都 不 是 高 性 能 。 近 15 年 以 来 , 每 TB 的 成 本 大 大 降低 ， 而 且 仍 然 在 继续 下 降 ， 
但 是 购买 ITB 的 U 盘 和 购买 ITB 的 SAN 存储 器 大 不 相同 。 同 样 ， 和 虚拟 化 的 例子 一 样 ，SAN 
有 着 实际 应 用 ,并 且 是 大 多 数 大 型 企业 的 基础 设施 。 关 键 在 于 ,企业 需要 一 种 更 快 、 更 便宜 的 方 
式 来 存储 和 处 理 大 规模 数据 ， 同 时 也 有 着 严格 的 高 可 用 性 要 求 。 


1.3.2 Hadoop 的 高 可 用 性 


Hadoop 为 传统 HA 集群 或 基于 SAN 的 架构 提供 了 一 种 替代 框架 。 它 首先 假设 会 出 现 故 障 ， 
然后 在 源 代 码 中 构建 解决 故障 的 机 制 。Hadoop 是 具有 高 可 用 性 的 开 盒 即 用 产品 。 管 理 员 不 需要 
安装 额外 的 软件 或 配置 额外 的 硬件 组 件 来 使 Hadoop 具有 高 可 用 性 。 管 理 员 可 以 将 Hadoop 的 可 
用 性 配置 得 或 高 或 低 ， 但 是 高 可 用 性 为 默认 选项 。 更 重要 的 是 ，Hadoop 消除 了 高 可 用 性 带 来 的 
成 本 。Hadoop 是 开源 的 ， 高 可 用 性 也 是 其 代码 的 一 部 分 ， 因 此 通过 传递 性 可 知 , 将 Hadoop 作为 
HA 解决 方案 并 没有 额外 成 本 . 

那么 ，Hadoop 如 何 做 到 以 低 成 本 来 提供 高 可 用 性 呢 ?” 它 主要 利用 了 这 样 一 个 事实 : 在 过 去 
的 30 年 里 ,每 TB 存储 器 的 成 本 显著 下 降 。 与 RAID 配置 类 似 ，Hadoop 需要 复制 数据 以 实现 元 
余 ,默认 情况 下 所 占 空 间 是 原始 大 小 的 3 倍 。 这 意味 着 10TB 的 数据 在 HDFS 上 存储 就 需要 30TB。 
这 也 意味 看 当 Hadoop 存放 一 个 文件 时 ( 假设 是 一 个 大 小 为 1TB 的 Web 日 志文 件 )， 会 将 它 分 割 
成 大 干 “ 块 "， 并 在 整个 集群 上 分 发 。 就 1TB 的 日 志文 件 来 说 ， 如 果 块 的 大 小 为 128MB ， 那 么 
Hadoop 在 分 发 文件 时 要 用 到 24 576 ( 8192x3 ) 个 块 。 图 1-4 展示 了 单个 文件 如 何 被 分 割 存放 在 
-个 3 BERE E. 


kal d 52 T3 


a 


图 1-4 文件 被 分 割 成 若干 块 ， 每 一 块 都 只 是 整个 文件 的 一 部 分 


根据 该 配置 的 设 定 ， 这 些 块 的 大 小 介 于 128MB ~ 256MB. 
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注意 ”对 于 一 个 文件 系统 来 说 ， 这 些 块 的 规模 已 经 非常 大 了 。 作 为 参照 点 ，Windows 最 大 块 的 
规模 ( 也 就 是 可 从 磁盘 读 入 内 存 的 最 大 规模 ) 是 4KB。 这 也 是 大 多 数 基 于 Linux 的 操作 
系统 所 采用 的 标准 


大 型 块 的 规模 在 很 大 程度 上 影响 了 Hadoop 的 架构 。 它 是 部 署 、 管 理 和 提供 Hadoop 的 核心 
所 在 。 请 考虑 如 下 这 些 受 大 型 块 规模 影响 的 因素 : 

口 处 理 大 型 文件 要 比 处 理 较 小 的 文件 效率 更 高 

O 主 服务 器 上 需要 的 内 存 更 少 ( 这 一 问题 将 在 下 一 节 探 讨 ) 

口 使 顺序 读 写 更 高 效 

口 查找 速率 可 缩减 为 传输 时 间 的 百 分 之 几 

对 于 大 型 文件 处 理 ， 让 我 们 回 到 刚才 的 1TB 日 志文 件 。 由 于 块 的 规模 设置 为 128MB ， 我 们 
可 以 得 到 24 576 个 块 ， 并且 通过 网 络 发 送 这 些 块 ， 将 它们 写 入 各 节点 。 如 果 块 的 规模 是 4KB, 
那么 块 的 数量 会 急剧 增加 到 805 306 368 ( 268 435 456x3) 个 。 稍 后 会 讨论 ， 这 么 大 数量 的 块 会 
对 集群 的 特定 部 分 造成 过 度 的 内 存 压力 。 较 大 的 块 规模 还 优化 了 系统 的 顺序 读 写 , 这 在 考虑 对 专 
用 驱动 器 的 访问 时 很 有 效 。 驱 动 器 只 是 一 个 带 有 指针 (ILR ) 的 磁盘 ， 它 可 以 移动 到 数据 在 盘 
片上 的 位 置 。 存 储 器 并 不 能 保证 数据 块 会 在 磁盘 上 一 个 接 一 个 地 存放 ,因此 ,孔径 臂 绕 着 盘 片 随 
机 移动 以 获取 数据 的 过 程 需 要 时 间 。 如 果 数 据 以 较 大 的 块 存储 或 者 按照 顺序 存放 ,就 像 大 多 数 数 
据 库 事 务 处 理 日 志文 件 那样 ， 那 么 读 写 操作 就 会 更 加 高 效 。 孔 径 臂 只 需要 从 A 点 移动 到 B 点 ， 
而 不 是 在 搜索 数据 时 四 处 跳 读 。 通 过 将 数据 存储 为 大 型 块 ，Hadoop 就 可 以 获得 这 种 顺序 访问 的 
优势 。 孔 径 臂 寻找 数据 需要 花费 时 间 ， 这 被 称 作 查找 速率 。 查 找 速率 和 传输 时 间 是 磁盘 的 两 个 主 
要 瓶颈 ， 而 标准 磁盘 又 总 是 会 成 为 系统 的 瓶颈 。 传 输 时间 是 将 数据 从 磁盘 移动 到 系统 内 存 所 震 要 
的 时 间 。 与 传输 时 间 相 比 ， 查 找 速率 要 慢 得 多 。Hadoop 将 查找 速率 降低 为 传输 时 间 的 百 分 之 几 。 

在 盘面 上 存储 大 型 块 可 能 看 起 来 效率 低下 或 存在 限制 ,但 是 Hadoop 也 有 “数据 位 置 ”的 概 
念 ， 这 就 使 元 余 更 加 有 用 。 正 如 前 面 提 到 的 ，Hadoop 由 主 节点 和 工作 节点 组 成 。 我 们 将 主 节 点 
Bey NameNode ( NN), 将 工作 节点 称 为 DataNode (DN )。NameNode 执行 以 下 功能 : 

a 跟踪 集群 中 的 哪些 块 属于 哪个 文件 

O 维护 集群 中 的 每 个 块 所 在 的 位 置 

Q 根据 节点 位 置 来 确定 块 的 放置 

O 通过 块 报 告 跟踪 集群 的 总 体 健康 状况 

NameNode 不 仅 将 文件 分 成 块 , 还 会 跟踪 这 些 块 在 集群 中 放置 的 位 置 。 Hadoop 知道 所 有 可 用 
的 DataNode， 清 楚 DataNode 位 于 哪个 机 架 上 。 可 获知 节点 在 哪个 机 架 上 的 功能 被 称 为 “机 架 感 
AI", BI 1-5 以 图 1-4 为 基础 进行 扩展 ， 包 括 了 机 架 感知 功能 。 
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图 1-5 ”借助 机 架 感知 回 HDFS 写 入 块 


下 面 是 Hadoop 用 来 写 入 文件 的 步骤 : 

(1) 将 一 个 块 写 和 人 到 机 架 1 的 节点 1 ES 

(2) 该 块 的 副本 被 写 入 到 机 架 2 的 市 点 2 上 ; 

(3) 将 一 个 副本 写 人 到 机 架 2 的 节点 3 上 。 

即使 有 两 个 以 上 的 机 架 , 第 3 个 块 仍然 会 被 写 人 与 第 2 个 块 相 同 的 机 架 。 块 的 写 人 顺序 使 可 
用 性 最 大 化 ， 同 时 减少 了 网 络 流 量 。 通 过 将 第 2 个 块 写 到 机 架 E, HDFS 文 持 在 整个 机 架 出 现 
故障 时 不 影响 文件 恢复 。 最 后 一 次 写 人 是 为 了 减少 网 络 流量 , 因为 在 一 个 机 架 内 的 节点 之 间 进 行 
IO 通信 要 比 在 不 同 机 架 的 节点 之 间 快 得 多 。HDFS 中 的 文件 是 很 大 的 ， 因 此 Hadoop 有 许多 不 同 
的 机 制 用 于 减少 网 络 流量 。 在 我 们 讨论 处 理 过 程 之 时 ,会 详细 介绍 这 个 概念 。 

请 记 住 ， 任 何 块 或 文件 都 不 会 存储 在 NameNode 上 。 数 据 只 存储 在 DataNode Eo 2€ P 9 
NameNode 联系 ， 确 定 在 何 处 写 人 块 或 所 需 读 取 的 块 所 在 的 位 置 ， 然 后 客户 端 直 接 与 DataNode it 
行 对 话 。NameNode 将 块 的 信息 存储 在 内 存 中 。 这 就 是 为 什么 采用 规模 大 的 块 很 重要 。 要 跟 蹊 的 
块 越 多 ，NameNode 存储 信息 所 需 的 内 存 就 越 多 。 

只 有 NameNode 知道 所 有 块 位 于 何 处 ， 以 及 每 个 块 属 于 哪个 文件 。 如 果 丢 失 了 NameNode, 
那么 也 就 丢失 了 集群 。 这 曾经 是 Hadoop 的 一 个 SPOF ( 单 点 故障 ) 因素 ,但 是 现在 ， 与 其 他 重 
要 系统 一 样 ，NameNode 也 可 以 高 效 融入 集群 以 获得 高 可 用 性 。 在 你 扩建 NameNode 时 ， 需 要 确 
保 系 统 有 足够 的 内 存 来 处 理 预期 数量 的 块 , 还 有 宛 余 硬件 。 另 一 方面 , 由 于 Hadoop 的 内 置 元 余 ， 
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DataNode 不 需要 额外 的 硬件 元 余 。 你 仍然 布 望 目 己 的 DataNode 拥有 足够 的 存储 、 内 存 和 CPU 
来 保存 和 处 理 数 据 。 
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存储 只 是 这 个 “等 式 ” 的 一 部 分 。 如 果 我 们 无 法 处 理 或 分 析 数 据 , 那么 数据 实际 上 是 无 用 的 。 
如 末 企 业 筑 得 目 己 无 法 从 堆积 如 山 的 数据 中 洞察 到 什么 信息 , 也 不 会 那么 轻易 采用 。 我们 也 不 项 
望 市 点 故障 对 处 理 造成 负面 影响 。 同 样 ， 当 我 们 在 集群 上 启动 一 个 作业 流程 时 ， 如 果 仅 仅 因为 单 
个 方 点 不 可 用 就 必须 花费 5 个 小 时 重新 启动 整个 作业 ， 这 是 不 可 接受 的 。 
在 讨论 Hadoop 处 理 时 ， 要 理解 的 首 个 关键 点 就 是 Hadoop 是 一 个 Java 环境 。 编 写 Hadoop 
的 工程 师 使 用 了 Java 编程 语言 。Hadoop 的 MapReduce 处 理 也 是 用 Java 编写 的 。 在 Hadoop 的 早 
期 阶段 ， 要 做 任何 事情 都 必须 具有 很 强 的 Java 开发 技能 幸运 的 是 ， 对 于 大 多 数 人 来 说 ， 现 在 
情况 已 经 不 是 这 样 了 。 了 解 Java 并 且 理 解 其 工作 机 理 ， 对 于 编写 MapReduce 代码 和 发 现 并 修复 
Hadoop 的 故障 很 有 帮助 ， 不 过 作为 业务 分 析 人 员 或 最 终 用 户 ， 你 现在 无 须 接 触 Java 代码 就 可 以 
执行 复杂 的 处 理 和 分 析 。 正如 下 一 章 中 将 进一步 讨论 的 , 工程 师 专门 创建 了 Hive, 以 将 编写 Java 
代码 的 必要 性 剥离 出 来 。 
既然 市 场 已 经 剥离 了 Java 与 MapReduce 的 关联 , 那么 为 什么 还 要 了 解 MapReduce 处 理 是 如 
何 工作 的 呢 ? 其 要 义 在 于 ，MapReduce 要 将 大 型 作业 划分 成 可 并 行 执行 的 任务 ， 对 于 Hadoop Æ 
群 上 的 分 布 式 处 理 来 说 ， 这 仍然 是 最 基本 的 方式 。 像 Hive 和 Pig 这 样 的 应 用 程序 ， 仍 然 可 以 在 
Jn EAT MapReduce ( 尽管 并 不 推荐 )， 而 且 理 解 MapReduce 的 工作 模式 是 很 有 帮助 的 ， 这 样 就 
可 以 更 好 地 优化 我 们 的 查询 并 理解 它们 的 行为 。 随 着 YARN 的 出 现 ，MapReduce 只 是 在 Hadoop 
上 访问 数据 的 男 一 种 手段 而 已 ， 不 过 MapReduce 仍然 很 重要 ， 值 得 加 以 讨论 。 
注意 YARN 代表 Yet Another Resource Negotiator ( 另 一 种 资源 协调 器 ) YARN 是 由 Hortonworks 
公司 的 Arun Murthy 开发 的 ， 被 称 为 “面向 Hadoop 的 操作 系统 ”。 它 将 资源 管理 从 最 初 
的 MapReduce 框架 中 分 离 出 来 , 使 MapReduce 将 重点 放 在 分 布 式 处 理 上 ， 而 不 是 资源 和 
任务 管理 上 。 现 在 ，YARN 下 的 集群 资源 管理 已 经 得 到 推广 ， 它 使 得 其 他 有 具有 不 同 访问 
模式 ( 交互 、 实 时 以 及 批 处 理 ) 的 应 用 程序 能 够 同时 在 同一 集群 上 运行 YARN 在 Hadoop 
2.x 中 引入 。Hadoop 2.x 之 前 的 版 本 被 标记 为 传统 Hadoop。YARN 出 现 之 前 的 MapReduce 
被 称 为 MRv1，YARN 出 现 之 后 的 MapReduce 则 被 称 为 MRv2。 虽 然 本 章 将 进一步 探讨 
YARN, 但 是 要 更 深入 地 了 解 YARN, 建议 阅读 由 Arun Murthy, Vinod Vavilapalli, Douglas 
Eadline、Joseph Niemiec 和 Jeff Markham @ #49 (Hadoop YARN 权威 指南 》 一 书 


如 前 所 述 ，Hadoop 专门 使 用 MapReduce 来 处 理 分 布 式 计算 机 网 络 上 的 数据 。 它 通过 被 称 为 
“ 吻 并 行 ”的 方式 来 完成 这 一 过 程 。 这 意味 着 数据 的 初始 处 理 是 在 各 独立 节点 上 并 行 执行 的 。 这 
与 传统 处 理 方式 有 所 不 同 , 传统 处 理 方式 在 单 台 计算 机 上 运行 处 理 过 程 , 或 者 在 数据 库 处 理 的 情 
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况 下 ， 要 从 磁盘 中 提取 数据 并 存储 到 内 存 再 进行 处 理 。 ua 
Map 阶段 是 MapReduce 并 行 处 理 的 第 一 部 分 。 回 想 一 下 Hadoop 如 何在 磁盘 上 存储 数据 。 它 

会 将 一 个 文件 分 成 多 个 块 ， 每 个 块 都 包含 总 数据 的 一 部 分 。 因 此 ， 如 果 你 有 个 1TB 的 文件 并 且 

其 中 含有 一 份 名单 ,， 那么 该 文件 将 被 分 割 成 大 量 的 块 ， 其 中 每 个 块 都 包含 该 名 单 的 一 个 子 集 ， 这 


些 子 集 存储 在 集群 中 的 各 个 节点 上 。 图 1-6 显示 了 如 何在 一 个 3 节点 的 集群 上 分 散 存 放 一 个 含有 
名 单 的 文件 。 


名 单 


James 


Wendy 
Joan Mordecai 
John Frank 
Frank Frank 
Peggy Susan 
Fredrick 


图 1-6 在 集群 中 分 布 式 人 存放 的 公司 职员 名 单 


MapReduce 中 的 映射 实际 上 是 一 个 Java 因数 。 它 接收 输入 并 生成 一 个 新 的 输出。 输出 结 宁 
是 一 个 键 / 值 对 。 


注意 在 你 继续 Hadoop 生态 系统 的 旅途 时 ， 将 遇 到 许多 有 关 “ 键 / 值 对 ”概念 的 示例 。NoSQL 
主要 聚焦 于 键 / 值 结构 。 这 一 点 很 重要 ， 因 为 键 / 值 模式 对 于 分 布 式 处 理 和 处 理 半 结 构 化 数 
据 来 说 非常 有 用 ， 而 半 结 构 化 数据 并 不 容易 被 模式 化 为 传统 的 RDBMS。 


在 我 们 的 示例 中 ， 一 个 单独 的 Map O PRÉC TE EAT DataNode 上 运行 ， 并 处 理 DataNode 上 与 
文件 相关 联 的 所 有 块 。 该 操作 独立 于 其 他 DataNode 上 的 所 有 其 他 块 。 对 于 第 一 个 节点 ， 它 将 把 
名 字 James 作为 输入 并 且 输 出 (James，1)。 它 将 对 每 个 节点 上 各 块 中 的 每 个 名 字 执 行 该 操作 ， 这 
样 就 可 以 得 到 如 下 输出 : 

(James,1), (Joan,1), (John,1), (Frank,1), (Peggy,1) 


(James,1), (Peter,1), (Peter,1),(Arthur,1),(Wendy,1),(Bob,1) 
(Wendy, 1) , (Mordecai, 1), (Frank, 1), (Frank,1), (Susan, 1) , (Fredrick,1) 
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WWIE, Hadoop 将 并 行 处 理 这 些 任务 。 在 Map 阶段 ， 节 点 之 间 不 需要 通信 。 在 处 理 大 型 数 
据 集 时 这 是 非常 重要 的 ,因为 你 不 布 望 出 现 系统 内 部 通信 或 节点 之 间 的 数据 传输 。 在 处 理 中 引入 
依赖 项 会 导致 诸如 竞争 条 件 和 和 死 锁 等 问题 。 通 过 并 行 处 理 ，Hadoop 在 所 谓 的 “无 共享 ”架构 中 
充分 利用 了 专用 IO 资源 。 

夯 一 个 关键 因素 是 将 “处 理 ” 推 送 到 “数据 ”的 理念 。 在 我 们 的 场景 中 ，Map 任务 在 留存 数 
据 的 节点 上 运行 。Map 阶段 从 不 将 数据 提取 到 中 ， 位 置 进行 处 理 。 同样 ， 这 也 是 处 理 大 型 数据 集 
的 关键 ， 因 为 在 网 络 上 移动 数 TB 甚至 是 数 PB 的 数据 是 不 可 行 的 。 我 们 希望 在 节点 上 就 近 人 处 理 
数据 ， 并 且 利 用 该 节点 可 用 的 全 部 内 存 、 磁 盘 和 CPU 资源 。 

在 Map 阶段 完成 之 后 ， 我 们 还 有 一 个 名 为 混 洗 和 排序 (shuffle and sort) 的 中 间 阶 段 。 该 阶 
段 从 Map 阶段 获取 所 有 键 / 值 对 ， 并 且 将 它们 分 配给 一 个 约 简 右 。 每 个 约 简 器 都 接收 
关联 的 所 有 数据 。 混 洗 和 排序 阶段 是 数据 在 集群 中 物理 移动 且 进程 之 间 进 行 通 信 的 唯一 时 间 有 段 。 


警告 ca nk 将 会 重点 规避 Reduce 阶段 。 这 一 阶段 可 能 成 为 瓶颈 ， 
需要 在 网 络 上 移动 数据 ， 节 点 间 还 需要 通信 。 同 样 ， 在 所 有 映射 完成 之 前 ， 不 能 
ie Reduce 阶段 。 
图 1-7 显示 了 Map 阶段 的 数据 如 何 通过 混 洗 和 排序 过 程 实现 跨 节点 移动 。 
名 单 


图 1-7 混 洗 和 排序 阶段 
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混 洗 和 排序 阶段 负责 按照 键 来 对 数据 进行 排序 , SRE AK 8 ZA AED S BET ZATRI nd 
通过 一 个 键 接 收 所 有 数据 。 例 如 , 这 意味 着 一 个 约 简 锅 将 通过 名 字 James 接收 所 有 与 之 相关 的 数 
据 。 如 果 有 2 人 或 200 人 的 名 字 为 James， 单 个 约 简 作 业 仍 然 会 接收 到 与 键 James 有 关 的 所有 数 
据 。 请 注意 名 字 Peter。 该 名 字 出 现 了 两 次 ， 而 且 每 次 都 出 现在 单独 一 个 数据 块 上 。 在 Peter 的 例 
子 中 ， 数 据 不 必 转 移 到 男 一 个 节点 ,而 是 可 以 在 同一 个 节点 上 映射 和 约 简 。 


警告 要 了 解 你 的 数据 ! 如 果 你 有 一 个 数据 集 ， 其 中 某 个 键 的 值 数 不 匀称 ,例如 文件 中 50% 的 
名 字 都 是 Bob， 那 么 单个 约 简 器 可 能 不 堪 重 负 。 

最 后 一 个 阶段 是 Reduce 阶段 。 约 简 操 作 将 每 个 键 / 值 对 作为 输入 ， 并 根据 键 生成 一 个 计数 汇 

A. 熟悉 SQL 的 人 可 以 将 Reduce 阶段 与 GROUP BY 子 句 进行 比较 。 约 简 器 将 获取 到 (Frank,1， 

Frank,1,Frank,1)， 然 后 将 其 转换 为 (Frank,3)。 图 1-8 展示 了 最 终结 


名 单 


Reduce 


| | 
geri LA iere aprili istic mado iei it reti ARM iR BA HR REA 
| f | 
) | | 


James, 2 Jon, 1 
Mordecai, t Frank 3 
John, 1 Arthur, 1 French, 1 
Wendy,2 Wendy, 2 1 
Bob.1 Poter 2 


图 1-8 Reduce 阶段 
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在 所 有 处 理 结束 之 后 ， 我 们 会 得 到 一 份 名 单 以 及 文件 中 每 个 名 字 出 现 的 总 次 数 。 这 可 能 看 
起 来 微不足道 ， 但 是 我 们 可 以 针对 分 布 式 存放 在 100 个 或 更 多 节点 上 的 一 个 10TB 文件 运行 该 
MapReduce 示例 。 随 着 我 们 加 集群 中 添加 更 多 的 节点 ， 其 性 能 会 提高 。 传 统 的 RDBMS 无 法 扩展 
到 这 样 的 级 别 。 


1.4.1 超越 MapReduce 


贯穿 本 章 ， 我 们 一 直 在 提示 MapReduce 并 不 是 Hadoop 上 处 理 数据 的 唯一 方法 。MapReduce 
是 一 种 非常 灵活 的 并 行 处 理 框架 ， 具 有 可 伸缩 性 和 灵活 性 ， 同 时 也 有 许多 缺陷 。 MapReduce 可 批 
量 处 理 数据 ， 它 善于 以 并 行 方式 处 理 大 数据 集 ， 然 后 汇总 结果 。 但 是 MapReduce 不 能 很 好 地 处 
理 即席 查询 或 实时 查询 模式 。 例 如 ， 你 想 获得 某 个 产品 过 去 10 年 在 每 家 商店 的 销售 信息 ， 而 且 
这 个 查询 需要 遍历 10TB 的 数据 ， 如 果 为 了 获得 结果 你 愿意 等 待 10 个 小 时 ， 那 么 MapReduce 将 
是 一 个 很 好 的 选择 。 但 是 ， 如 果 你 想 获 得 密苏里 州 5 家 商店 和 密歇根 州 10 家 商店 销量 最 高 的 两 
件 商 品 ， 而 且 需 要 在 10 秒 钟 以 内 获得 这 些 数据 ， 那 么 MapReduce 就 不 是 一 个 好 的 解决 方案 本 ， 
在 现实 中 ， 大 多 数组 织 都 围绕 着 一 个 即席 的 或 近 实时 的 商业 智能 处 理 架 构 ， 其 中 并 没有 用 到 
MapReduce。 即 使 是 采用 少量 连接 或 GROUP BY 子 句 的 简单 SQL 事务 处 理 ， 也 需要 很 长 的 计算 时 
间 ， 尤 其 是 在 处 理 大 规模 数据 时 。 在 看 待 RDBMS 处 理 连接 、GROUP BY, ORDER BY 和 其 他 计算 的 
速度 时 ,我 们 有 点 想当然 ， 而 且 忽 略 了 这 样 一 个 事实 处 理 速度 应 该 归功 于 前 期 所 花费 的 代价 ， 
即 给 数据 添加 约束 形成 特定 模式 结构 并 且 符 合 特定 规则 。 

Hadoop 是 一 个 schema-on-read 框架 ， 而 不 是 一 个 schema-on-write 框架 。 要 将 数据 摄 和 人 到 传 
统 的 RDBMS 中 ， 需 要 转换 数据 以 适应 包含 表 、 行 和 列 的 关系 结构 。 还 有 其 他 一 些 结构 ， 比 如 数 
据 类 型 int, varchar, 、date， 以 及 表 之 间 的 关系 约束 。 当 源 系统 也 是 关系 型 时 ， 尽 管 仍 然 困 难 重 
重 , 但 是 ETL ( 抽取、 转换 、 装 载 ) 过 程 运转 良好 。 但 是 ， 如 果 数 据 是 非 结 构 化 的 或 半 结 构 化 的 
We? 日 志文 件数 据 通常 不 会 按照 表 的 结构 存放 , 但 是 可 以 将 这 些 数据 转换 为 关系 模型 ， 而 代价 就 
是 降低 数据 的 摄 入 速度， 以 及 在 简单 的 域 构造 更 改 时 ( 例如 添加 列 或 将 整数 值 更 改 为 字符 串 ) 破 
坏 数据 摄 和 人 过程。 已 经 有 大 量 文献 前 述 了 现代 数据 的 数量 、 速 度 和 多 样 性 ,因此 本 书 不 笛 次 入 人 研 
究 这 些 内 容 , 但 是 请 牢记 ，Hadoop 为 没有 结构 要 求 的 系统 自由 摄 和 人 数据 提供 了 折 中 方案 。 在 失去 
结构 的 地 方 ， 我 们 获得 了 灵活 性 。 这 样 Hadoop 就 从 一 个 简单 的 存储 环境 转变 成 一 个 灵活 的 、 可 
伸缩 的 计算 环境 ， 打破 了 开发 人 员 和 严格 关系 数据 结构 之 间 存 在 的 限制 。 

程序 员 用 Java 编写 MapReduce 任务 。MapReduce 处 理 运行 时 的 复杂 事务 以 及 集群 上 的 作业 
管理 和 调度 ,MapReduce 需要 对 Java 和 MapReduce API 有 很 深入 的 了 解 。 随 着 Hadoop 成 为 主流 ， 
该 产品 必然 要 摆脱 Java 开发 工具 的 定位 ， 更 加 强 有 力 地 迎合 商业 领域 ， 例 如 传统 的 ETL 和 过 去 
30 年 里 一 直 主 导 着 数据 分 析 的 商业 分 析 领 域 。 接 受 度 是 Hadoop 成 功 的 关键 ， 如果 每 个 人 都 需要 
^£ 2] Java 来 分 析 存 储 在 Hadoop 中 的 数据 ， 那 么 整体 接受 将 是 缓慢 而 困难 的 。 

YARN 拓展 了 Hadoop 框架 的 范围 和 灵活 性 。YARN 使 MapReduce 成 为 访问 Hadoop 存储 系 
统 中 所 存放 数据 的 唯一 方法 。 其 他 应 用 程序 一 一 例如 采用 Mahout 和 最 近 的 Spark MLib 进行 机 从 
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学 习 ， 采 用 Hive 和 Tez 进行 即席 查询 ， 采 用 Pig 进行 数据 流 处 理 ， 等 等 一 一 可 以 与 MapReduce 
并 肩 执行 ， 而 且 任 何 一 个 应 用 程序 都 不 会 消耗 所 有 集群 资源 。YARN 变 成 了 将 Hadoop 作为 企业 
数据 存储 的 基础 所 在 。 
对 本 书 感 兴趣 ， 表 明 你 可 能 对 SQL 查询 语言 有 基本 的 了 解 。SQL 是 传统 RDBMS 的 语言 ， 

它 影响 着 我 们 对 数据 访问 的 看 法 和 认识 。 所 有 传统 RDBMS 都 有 一 个 查询 引擎， 其 作用 是 优化 对 
结构 化 数据 的 访问 。Hadoop 和 MapReduce 很 少 涉及 有 关 索 引 、 关 系 约 束 和 统计 信息 这 些 基本 
RDBMS 构造 的 知识 。 开 发 人 员 设 计 SQL 查询 引 敬 来 利用 这 些 假设 , 如果 关 系 结构 设计 不 当 、 不 
存在 或 者 实现 得 很 差 , 性 能 会 显著 降低 。 一 个 更 大 的 问题 是 :“ 当 Hadoop 集群 的 架构 并 不 像 传统 
RDBMS 那样 时 ， 该 如 何在 Hadoop 集群 上 匹配 传统 RDBMS 的 性 能 ?” 这 正 是 主要 的 Hadoop 发 
布 者 和 开放 社区 正在 解决 的 问题 ， 这 也 是 这 个 社区 开始 远离 面向 批 处 理 的 MapReduce 的 原因 之 
一 。 除 了 批 处 理 之 外 ， 他 们 更 趋向 于 像 YARN 这 样 支 持 交 互 和 近 实 时 使 用 的 可 伸缩 、 可 运 应 的 
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1.4.2 YARN 和 现代 数据 架构 


到 目前 为 止 ， 我 们 已 经 围绕 虚拟 化 、SAN 、 传 统 HA 配置 以 及 磁盘 配置 讨论 了 架构 。 这 些 都 
是 围绕 数据 中 心 设计 和 标准 化 的 基本 概念 。Hadoop 使 虚拟 服务 器 、SAN 存储 和 RAID 配置 的 概 
念 变 得 混淆 。 在 着 手 使 用 这 种 存储 和 处 理 数据 的 新 方式 时 ， 连 供应 商 、 数 据 中 心 管理 员 以 及 安全 
管理 员 都 会 感到 紧张 。 我 们 也 不 要 忘记 那些 为 了 关键 业务 流程 而 可 视 化 和 访问 数据 的 分 析 师 。 他 
们 所 做 的 工作 推动 了 企业 的 发 展 , 为 业务 带 来 了 收益 和 重要 见解 ,从 而 驱动 新 的 收益 渠道 并 提供 
竞争 优势 。 干扰 他 们 的 工作 就 意味 着 损失 生产 力 和 收益 。 

像 Hadoop 这 样 的 颠覆 性 技术 不 可 避免 地 会 激 起 许多 阵营 的 强烈 反对 ， 引 发 恐惧 、 不 确定 和 
怀疑 。 供 应 商 必然 会 为 维持 其 数据 中 心 的 走势 而 抗争 , 为 说 明 其 技术 的 优势 和 其 他 技术 的 劣势 而 
争论 不 休 。 当 其 他 厂商 想 要 占有 一 席 之 地 时 ， 就 要 接受 这 一 不 可 避免 的 实现 。 不 管 有 关 特 色 / 功 
能 和 风险 /回报 的 “风暴 ”如 何 肆 虐 ，CIO 、CTO 和 业务 分 析 师 只 是 想 要 以 高 效 、 廉 价 的 方式 获 
取 数 据 ， 并 且 尽 可 能 少 破坏 数据 。 

Hadoop 社区 和 这 一 领域 的 供应 商 (下 一 章 会 更 详细 地 讨论 供应 商 和 配售 ) 的 主要 工作 就 是 实 
现 破 坏 的 最 小 化 。 供 应 商 、 销 售 人 员 和 解决 方案 工程 师 很 容易 陷 人 对 特性 的 争论 中 , 而 忽略 了 创建 
Hadoop 的 原因 。Hadoop 本 质 上 是 一 种 驱动 现代 分 析 的 平台 或 架构 。 业 界 将 其 称 为 现代 数据 架构 。 

图 1-9 展现 了 现代 数据 架构 的 组 件 。 

由 于 传统 RDBMS 的 限制 , 该 架构 将 一 些 额外 的 数据 源 整 合 到 数据 流程 中 。 我 们 现在 可 以 包 
含 点 击 流 、Web 和 社交 、 传 感 器 和 机 器 、 日 志和 图 像 等 来 源 。 当 以 流 输入 或 批 处 理 将 这 些 数据 拉 
A Hadoop 时 ， 我 们 在 HDFS 中 汇集 数据 以 进行 直接 分 析 或 将 数据 迁移 到 其 他 系统 中 。 这 种 方法 
通过 将 资源 密集 且 耗 时 的 抽取 、 转 换 和 装载 操作 转移 到 更 为 经 济 的 Hadoop 平台 上 ， 优 化 了 
RDBMS 、 企 业 数据 仓库 (EDW ) 和 大 规模 并 行 处 理 (MPP ) 资源 。 从 本 质 上 看 ,你 是 从 ETL 模 
型 转换 到 了 ELT 模型 。 你 将 所 有 东西 都 抽取 并 装载 到 Hadoop 中 ， 只 需 针 对 给 定 的 平台 或 分 析 需 
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求 来 转换 数据 。 

YARN 是 这 种 架构 背后 的 驱动 力 。 如 前 所 述 ， 在 引入 YARN 之 前 ， TT TE 是 Hadoop ME 
一 的 计算 引擎 。MapReduce 有 很 多 优点 ,也 有 很 多 缺陷 。 传 统 的 Hadoop 将 MapReduce 作业 放 入 
一 个 队列 中 ,每 个 作业 都 必须 在 上 一 作业 完成 之 后 才能 运行 。 这 源 于 扩展 槽 的 理念 ,以 及 有 和 多少 
扩展 槽 可 供 MapReduce 作业 运行 之 用 。MapReduce 作业 是 批量 操作 ， 需 要 花 尼 数 小 时 或 数 天 时 
间 才 能 完成 。 如 果 你 用 集群 来 解决 单纯 的 大 数据 问题 ,使 用 MapReduce 非常 棒 ， 但 如 果 你 想 分 
析 每 天 的 销售 情况 并 且 同 时 通过 仪表 组 进 丁 钻 取 操 作 ， 就 不 会 这 么 顺利 了 。 


HDFS 
(Hadoop 分 布 式 文件 系统 ) 


nnd 点 击 流 Web ”地理 位 置 ”传感器 “服务 器 ” 非 结构 化 
_ 和 社交 — 0 0. L2 ”日 志 
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图 1-9 Hadoop 作为 已 有 数据 架构 解决 方案 的 一 部 分 


YARN FIA SAAS. Ate T oh, 包含 专用 于 特定 应 用 程序 进程 的 CPU, 存储 
和 内 存 等 资源 。ResourceManager 根据 指派 的 策略 来 调度 作业 并 且 对 应 用 程序 资源 进行 仲裁 。 这 
些 策 略 可 能 (也 可 能 不 ) 包含 诸如 “市 场 营 销 部 门 最 多 获得 50% 的 集群 内 存 ” 或 将 ier 
内 存 分 配给 市 场 营 销 部 门 和 人 力 资源 部 门 ， Co 30% 的 份额 ”这 样 的 东 
这 些 关键 约束 允许 基于 用 户 或 分 组 进行 集群 资源 供应 


po 
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注意 文中 给 出 的 示例 是 一 个 计算 能 力 调度 器 。 该 调度 器 允许 按照 粒度 对 每 个 分 组 或 用 户 层 级 
分 配 资源 。 另 一 个 示例 调度 器 是 公平 调度 器 ， sea FIFO (先入 先 出 ) 调度 器 
或 者 更 简单 地 说 ， 是 一 个 机 会 均等 的 调度 器 。YARN 的 默认 调度 器 是 计算 能 力 调度 器 
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DataNode 运行 一 个 ApplicationMaster, ， 其 目的 是 基于 每 个 应 用 程序 控制 每 个 容 需 。 
ApplicationMaster 充当 ResourceManager 的 信使 ( 更 具体 地 说 ， 它 是 名 为 ApplicationManager 的 
ResourceManager 的 一 个 组 件 ), 并 在 每 个 节点 的 本 地 控制 资源 分 配 。 这 使 YARN 框架 可 以 更 好 地 
伸缩 ， 比 采用 ResourceManager 作为 所 有 节点 资源 的 中 央 管 理 右 且 没 有 本 地 资源 协调 器 的 架构 更 
ANH 

ApplicationMaster 增加 了 一 项 优秀 的 功能 ， 即 第 三 方 产品 可 以 编写 利用 AM 设计 的 应 用 程 
序 ， 而 且 它 们 的 应 用 程序 可 以 与 其 他 AM 应 用 程序 一 起 运行 。 如 图 1-9 所 示 ， 引 入 YARN 框架 
和 AM 守护 进程 就 可 以 进行 多 用 途 查 询 访问 ， 例 如 批 处 理 、 交 互 和 实时 处 理 。 我 们 把 它 称 为 多 
租户 环境 ， 它 是 现代 数据 架构 的 基础 ， 使 企业 现在 可 以 开始 建立 一 个 数据 湖 来 汇集 数据 ， 他 们 
选用 的 任何 分 析 工 具 都 可 以 在 其 中 使 用 ,集成 对 于 采用 Hadoop 的 公司 和 实现 现代 数据 染 构 来 说 
IFAS RHE. Hadoop 和 YARN 的 原始 精神 推动 了 这 种 集成 ,它们 的 开发 都 是 开放 式 的 ， 而 且 兼 顾 
所 有 人 的 利益 。 


1.4.3 Hadoop 和 开源 社区 


讨论 Hadoop 、YARN 或 Hive 时 ， 必 然 要 提 及 开源 软件 开发 以 及 开源 软件 如 何 适 用 于 企业 。 
开源 一 直 是 Hadoop 及 其 生态 系统 的 关键 组 成 部 分 。 当 说 到 生态 系统 时 ， 我 们 指 的 是 所 有 与 
Hadoop 直接 集成 并 且 是 Apache 软件 基金 会 (ASF) 一 分 子 的 应 用 程序 。 这 其 中 包括 Hive, 也 包 
括 Sqoop、Pig、Oozie、Flume 以 及 其 他 几 十 个 特性 ， 它 们 每 一 个 都 代表 ASF 中 一 个 不 同 的 软件 
开发 项 目 。 这 种 区 分 很 重要 ， 因 为 在 确定 兼容 版 本 时 可 能 会 引起 混淆 ， 搞 不 清 对 于 哪个 产品 版 本 
来 说 哪些 特性 是 可 用 的 。 我 们 很 幸运 ,每 个 产品 的 项 目 开 发 都 公开 进行 ,我 们 可 以 目 由 关注 有 关 
功能 增强 和 bug 修复 的 交流 。 除 了 不 需要 软件 授权 许可 之 外 , 这 也 是 开源 软件 真正 “开放 ”的 原 
央 。 开 发 过 程 并 没有 因为 保密 而 被 隐藏 起 来 ,事实 上 任何 人 都 可 以 参与 讨论 ,或 者 推荐 在 将 来 的 
产品 发 布 中 应 该 包含 哪些 特性 。 

洗 多 像 微软 这 样 的 大 型 软件 公司 都 贡献 了 开源 代码 。 大 规模 安装 部 署 Hadoop 的 公司 也 为 该 
产品 贡献 了 代码 。 是 什么 激励 他 们 公开 代码 呢 ? 开源 软件 开发 背后 的 驱动 力 是 这 样 的 想法 : 通过 
将 代码 贡献 给 项 目 ， 产品 创新 会 更 快 ， 每 个 人 都 会 从 全 社区 的 创新 中 受益 。 此 外 , 在 你 的 简历 上 
有 一 个 开源 项 目 代 码 提交 者 的 头衔 并 不 是 一 件 坏事 。 | 

当 开 始 Hive 之 旅 时 , 你 会 把 大 部 分 时 间 花 在 有 关 Hive AY ASF 主页 上 。 这 个 页 面 可 以 通过 网 
hk http://hive.apache.org 找到 。 图 1-10 展示 了 该 主页 。 

其 中 ,Documentation 菜单 下 的 Language Manual fil Wiki LA Az Development 3 ff. F AY) Hive JIRA 
都 是 非常 重要 的 链接 。JIRA 是 由 Altassian 开发 的 一 款 问 题 跟 踪 软 件 , 被 ASF 社区 用 于 跟踪 与 产 
品 相 关 的 bug、 问 题 和 常规 项 目 管理 用 例 。 可 以 在 ASF 软件 项 目的 帮助 台 查 看 JIRA。 在 后 面 的 
章节 中 ， 我 们 将 讨论 Hive ASF 的 详细 信息 ， 但 是 诈 拖 要 深入 了 解 开 源 的 过 程 以 及 它 对 Hadoop 
这 类 项 目的 意义 。 


A m. 
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APACHE HIVE TM 


The Apache Hive ™ data warehouse software facilitates querying and datasets 

project structure onto this data and 
map/reduce programmers to plug in their custom 

inconvenient or inefficient to express this logic in HiveQL. 

Geting Started. 7 

Check out the Gating Started Guide on Sie Lua wits 


Getting Involved Jd 
Hive is an open source volunteer project under the Apache Software 
We encourage you to learn about the project and contribute your expertise 
links: 
* Give us téodback: What can we do better? 


. Join the mailing list: Meet the community. 
* Become a Hive Fan on Facebook. 
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[58 1-10 Hive 的 ASF 主页 
下 面 引 用 的 这 段 话 突出 了 ASFA: 


Apache 软件 基金 会 为 Apache 开源 软件 项 目 社 区 提供 支持 ， 它 为 了 公众 的 利益 提供 
软件 产品 ……Apache 项 目 具 有 以 下 特点 : 基于 共识 的 协作 开发 过 程 ， 开 放 而 讲求 实效 
的 软件 许可 ， 以 及 创建 本 领域 领先 的 高 质量 软件 的 渴望 。 


ASF 是 一 个 支持 多 种 软件 开发 项 目的 组 织 。 它 为 社区 提供 了 存储 库 和 开发 方法 , 为 社区 以 开 
放 方 式 创建 应 用 程序 提供 了 论坛 和 支持 通道 。 它 为 程序 员 社 区 监视 和 规范 软件 开发 提供 了 一 个 重 
要 场所 。 它 强调 一 种 “协作 共识 ”"， 即 决策 由 个 体 投票 做 出 ， 而 个 体 则 通过 投票 获得 控制 过 程 的 
能 力 。 他 们 在 一 个 项 目 中 的 地 位 和 权力 是 其 所 做 贡献 和 领导 能 力 的 直接 结果 。 

每 个 Apache 项 目 都 是 独立 的 ， 每 个 项 目 都 拥有 指派 给 它 的 顶级 PMC (项 目 管理 委员 会 
他 们 控制 着 整个 项 目的 方向 。 一 个 人 可 以 在 多 个 项 目的 PMC 中 任职 ， 不 过 这 种 情况 很 少见 ， s 
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并 不 被 或 励 。PMC 之 下 是 代码 提交 者 ， 他 们 对 项 目 有 写 访 问 权 。 代 码 提 交 者 本 质 上 也 是 项 目 开 
发 人 员 ,他 们 回 项 目 提交 代码 ,以 下 是 Hive 代 码 提交 者 的 列表 : http://people.apache.org/committers- 
by-project.html#hive。 代 人 码 提交 者 也 可 以 是 发 布 经 理 ， 负责 主要 发 布 版 本 背后 的 保障 工作 。 位 于 
最 底层 的 是 贡献 者 。 他 可 能 会 问 一 个 相关 的 问题 或 者 提出 一 个 好 的 建议 。 贡献 者 无 法 决定 项 目的 
走 回 ， 而 且 不 能 添加 或 修改 代码 。 

当然 ， 并 不 是 说 贡献 者 不 重要 ， 这 是 一 个 以 目 愿 加 入 为 原则 的 组 织 。 尽 管 代 码 提交 者 非常 受 
欢迎 , 而 且 组 织 也 愿意 用 高 薪 聘 请 他 们 , 但 是 项 目 仍然 需要 那些 愿意 投入 个 人 时 间 来 做 各 种 工作 
(从 文档 到 bug 报告 ， 册 到 最 基本 的 热情 宣传 ) 的 贡献 者 。 要 成 为 一 名 贡献 者 ， 你 并 不 需要 是 经 
验 丰 定 的 开发 者 ， 也 不 必 住 在 硅谷 。 页 献 者 和 代码 提交 者 一 样 ,， 来 目 世界 各 地 的 各 行 各 业 。 请 记 
E, 开放 源码 开发 是 一 个 社区 。 它 是 一 个 由 有 奉献 精神 和 驱动 力 的 志愿 者 构成 的 社区 ,他 们 喜欢 
为 了 所 有 人 的 利益 而 创建 世界 级 的 软件 。 如果 某 个 公司 因为 你 的 开发 技能 得 到 了 开发 者 社区 的 证 
明和 认可 而 决定 付 你 高 薪 , 那 对 于 你 来 说 就 更 好 了 。 还 要 记 住 ， 如 果 你 经 常 做 贡献 并 且 贡 献 了 重 
要 代码 ， 就 可 以 通过 投票 成 为 一 名 代码 提交 者 。 

项 目的 每 个 决定 都 是 在 邮件 列表 中 做 出 的 。 没有 什么 是 保密 的 , 而 且 尽 管理 解 这 些 对 话 很 耗 
费时 间 , 却 也 很 有 意思 ,可 通过 网 址 http://hive.apache.org/mailing lists.html 找到 Hive 的 邮件 列表 。 
Hive 有 4 个 单独 的 列表 : 用 户 列 表 、 开 发 人 员 列 表 、 代 码 提交 列表 和 安全 列表 。 用 户 列表 是 针对 
问题 和 文 持 的 一 般 列 表 ， 由 开发 人 员 监 督 ， 但 主要 是 一 个 用 户 对 用 户 的 论坛 。 如 果 你 打算 使 用 
Hive 的 话 ， 强 烈 建议 你 订阅 这 个 邮件 列表 ( 我 认为 你 会 用 到 ) Hil] user-subscribe@hive.apache.org 
发 送 一 封 空 电子 邮件 。 之 后 ， 你 会 收 到 确认 该 订阅 的 电子 邮件 。 
警告 ”订阅 电子 邮件 列表 很 有 帮助 并 且 有 利于 增长 见识 ,但 是 也 会 产生 很 多 “噪声 "。Hive 社区 

充满 活力 并 且 很 活跃 ， 通 过 这 些 列表 可 以 看 到 大 量 支持 和 用 例 活动 ， 这 些 是 你 在 互联 网 
上 任何 其 他 地 方 都 找 不 到 的 。 如 果 你 发 现 这 些 信息 毫 无 用 处 或 者 妨碍 了 你 ， 可 以 随时 取 
消 订 阅 。 另 一 个 获得 帮助 的 选择 是 Hortonworks 社区 连接 (PP HCC )。 你 可 以 通过 网 址 
http:Wcommunity.hortonworks.com 找到 它 。 


对 于 那些 将 Hive 作为 分 析 平 台 而 非 开发 项 目的 人 来 说 ， 开 发 人 员 列 表 、 代 码 提交 列表 和 安 
全 列表 可 能 很 难 理解 。 要 理解 本 书 中 的 概念 和 日 党 使 用 Hive， 并 不 需要 订阅 这 些 列表 ， 但 如 采 
你 想 了 解 内 部 工作 情况 ,可 以 上 自由 使 用 这 些 列表 。 你 还 可 以 访问 电子 邮件 归档 文件 , 无 须 订阅 就 
串 以 查看 。 一 直 跟 随 项 目 就 很 容易 深入 其 中 ， 特 别 是 当 讨 论 转 向 错误 修正 或 代码 开发 的 时 候 。 

Apache 软件 基金 会 提供 有 关 代 码 开发 的 治理 策略 。 这 些 策 略 本 质 上 是 比较 民主 的 ， 尽 管 多 
效 派 获胜 的 民主 有 一 点 严格 。 代 码 提 交 者 和 社区 要 对 提交 的 代码 、 包 的 发 布 版 和 过 程 策 略 进行 投 
me TEVFS TOL, RA PMC 成 员 的 投票 具有 约束 力 。 投 票 和 开发 决策 一 样 ， 是 通过 公共 论坛 
在 线 进 行 的 。 如 条 你 同意 提交 则 输入 +1, 不 同意 则 输入 -1 ( 本 质 上 是 否决 )。 除了 标准 的 -1 和 +1 
投票 ， 下 面 给 出 了 投票 的 分 数值 和 它们 的 含义 。 | 

a +0: 我 对 它 没 有 强烈 的 感 党 ， 但 是 我 可 以 接受 。 
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口 -0: 我 不 会 妨碍 你 的 ， 但 我 宁愿 我 们 不 这 样 做 。 

O -0.5: 我 不 喜欢 这 个 主意 ， 但 是 我 找 不 到 任何 合理 的 理由 来 解释 我 的 感受 。 

OHI: HE! REKAT! 让 我 们 干 吧 ! 

O -0.9: 我 真 的 不 喜欢 这 个 ， 但 是 如 果 其 他 人 都 想 继续 的 话 ， 我 也 不 会 阻止 。 

a +0.9: 这 是 一 个 很 酷 的 想法 ， 我 很 嘉 欢 ， 但 是 我 没有 时 间或 技能 来 帮助 你 。 

投票 为 -1 将 终止 该 过 程 ， 直 到 这 票 和 否决 以 批准 或 撤回 的 形式 重新 提交 。 投 反对 票 的 人 也 必 
须 提 交 一 份 技术 设计 文档 来 解释 反对 的 理由 。 这 有 助 于 减少 人 们 滥用 和 否决 权 的 机 会 。 和 否决 这 一 选 
择 为 该 过 程 提供 了 一 个 强大 的 制衡 体系 ， 让 个 人 能 够 在 一 个 开放 的 论坛 上 充分 解决 分 歧 和 争论 
只 有 在 各 方 达成 共识 之 后 ，PMC 才 会 更 改 或 发 布 代 码 。 

根据 投票 是 否 针 对 代码 更 改 、 程 序 策略 或 新 版 本 发 布 ， 这 些 规则 会 有 所 不 同 。 我 们 不 再 详细 
讨论 这 些 差别 ， 只 需要 知道 这 个 过 程 是 建立 在 民主 的 基础 之 上 , 这 种 设计 是 为 了 尽 可 能 创造 出 最 
好 的 软件 。 这 个 过 程 让 每 个 人 都 有 机 会 为 项 目 贡献 意见 和 想法 ,同时 对 项 目的 方向 和 功能 达成 共 
识 。 个 人 在 项 目 中 的 地 位 取决 于 个 人 能 力 。 同 伴 们 根据 个 体 贡 献 及 其 就 产品 展现 出 来 的 知识 , 选 
举 出 一 个 代码 提交 者 或 PMC。 开 源 社 区 是 由 最 优秀 、 最 聪明 的 人 构成 的 社区 ， 其 主要 目的 是 为 
每 个 人 开发 更 好 的 软件 。 


1.4.4 ”我 们 身 在 何 处 


我 不 否认 Hadoop 领域 变化 得 非常 快 ， 任 何 一 本 书 都 无 法 追 上 它 的 脚步 。 发 布 周 期 是 用 月 而 
不 是 年 来 度量 的 ,补丁 和 更 新 是 用 周 而 不 是 月 来 度量 的 ,开源 社区 的 创新 速度 是 我 们 前 所 未 见 的 
及 用 率 推动 着 创新 。 大 型 公司 (也许 像 你 的 公司 一 样 ) 要 接受 Hadoop 市 来 的 挑战 ， 抓 住 Hadoop 
带 来 的 机 会 ， 利 用 它 所 提供 的 一 切 ， 从 中 发 现 缺陷 或 者 必 备 项 。 这 些 公 司 (实际 上 是 其 中 努力 工 
作 的 开发 人 员 和 工程 师 ， 就 像 你 一 样 ) 有 机 会 通过 提交 代码 和 JIRA 来 驱动 创新 ， 也 可 以 通过 
Hadoop 供应 商 反 馈 建 议 来 使 之 更 加 完美 ， 进 一 步 推动 创新 、 提 升 采 用 率 。 开 源 社区 充满 活力 、 
创新 和 驱动 力 ， 并 致力 于 提供 高 质量 且 设 计 巧 妙 的 软件 解决 方案 来 解决 复 林 的 现代 数据 问题 

Hive 是 这 个 生态 系统 的 一 个 很 小 却 很 重要 的 组 成 部 分 。Hive BOXE, DNE AERE AC Yin 
复杂 的 数据 存储 环境 的 入口 。Hive 是 传统 模式 与 新 模式 之 间 的 纽 市 。Hive 得 到 Hadoop 开发 社区 
的 认可 ， 因 为 40 ZERKI RDBMS 设计 和 访问 经 验 非常 宝 贯 和 有 用 ， 值 得 在 推广 时 借鉴 


注意 我 突出 “40 多 年 ”是 因为 E. F. Codd 首次 发 表 论 文 Relational Model of Data for Large 
Shared Data Banks 是 在 1970 年 6 月 ,说 来 也 怪 ， 但 也 许 并 非 巧合 ， 该 论文 是 在 圣何塞 发 
表 的 ， 也 就 是 Google 公司 发 表 GFS 论文 (该 论文 影响 了 Yahoo 公司 Hadoop 的 开发 ) 的 
地 方 ， 而 Yahoo 公司 也 恰好 位 于 这 一 地 区 附近 . 


Hive 是 面 问 大 众 的 Hadoop 访问 方法 。 面 回 大 众 的 Hadoop， 其 实用 性 并 不 亚 于 福特 的 T AY 
车 或 微波 炉 。 我 个 人 和 而 望 这 种 发 展 趋势 能 持续 下 去 ， 而 且 相 信 一 定 会 这 样 。 如 果 Hadoop 没有 被 
组 织 中 真正 进行 分 析 和 洞察 工作 的 用 户 所 采用 , 那么 它 的 可 伸缩 性 和 宛 余 性 就 没有 意义 。 如 果 数 
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据 没有 用 、 不 易于 访问 或 无 法 马上 带 来 回报 ， 那 么 它 就 没有 任何 意义 。SQL 是 数据 的 自然 语言 ， 
也 是 常规 Hadoop 分 析 的 显而易见 的 选择 。SQL 提供 了 易 用 性 、 共 识 和 灵活 性 。 尽 管 Hive 并 没有 
100% 了 映射 到 ANSI SQL， 但 它 还 是 采用 了 传统 SQL 的 核心 部 分 ， 让 业务 分 析 人 员 能 够 快速 适应 
和 运行 Hadoop 环境 。 
还 存在 其 他 SQL-on-Hadoop 引擎 , 例如 Impala, HAWQ 和 Spark SQL. 它们 都 有 各 自 的 优 缺 
点 以 及 强 弱 项 。 所 有 这 些 工 具 ( 包括 Hive) 都 认同 在 Hadoop 上 提供 交互 式 SQL 功能 的 价值 ， 了 
解 我们 期 望 从 传统 商业 智能 基础 设施 获得 的 性 能 。Hive 因 使 用 广泛 及 其 多 样 化 的 开发 社区 C 以 世 
界 上 最 大 的 一 些 IT 组 织 为 代表 ) 脱颖而出 。 正 如 我 们 将 在 后 面 的 章节 详细 了 解 到 的 ，Hive 不 会 
消亡 ， 它 的 功能 和 能 力 会 继续 增长 ， 其 唯一 的 目的 就 是 让 业务 用 户 能 够 从 Hadoop 中 有 所 收获 。 


虽然 Hadoop 生态 系统 在 不 断 发 展 ， 而 且 它 提供 了 访问 新 数据 类 型 和 结构 的 时 越 方式 ， 但 是 
我 们 并 不 能 否认 传统 关系 系统 的 影响 和 作用 。 关 系 系统 ,特别 是 这 些 系统 所 使 用 的 数据 访问 方法 ， 
过 去 30 多 年 来 已 经 成 为 一 种 宝贵 的 工具 。 通 过 抽象 数据 存储 位 置 这 样 的 概念 ，SQL 查询 语言 将 
数据 访问 带 给 大 众 , 使 开发 人 员 能 够 专注 于 如 何 呈 现 数 据 。SQL 作为 一 种 声明 性 语言 ( declarative 
language ) 很 优秀 ， 你 可 以 用 简单 的 英语 语法 来 明确 指定 你 要 做 的 事情 。 你 可 以 SELECT JOIN, 
SUM 数据 FROM 某 个 数据 源 WHERE 取 值 等 于 或 者 不 等 于 某 些 限定 值 。 开发 人 员 不 必 考 虑 数据 在 磁盘 
上 的 位 置 ， 而 数据 结构 以 关系 型 格式 预先 定义 ， 这 种 格式 包含 带 有 行 和 列 的 表 。 

SQL 对 Hadoop 业界 的 吸引 力 并 不 在 于 它 能 够 将 数据 模式 化 为 行 和 列 ， 也 不 在 于 它 能 高 效 地 
使 用 索引 和 统计 数据 ， 而 在 于 其 作为 一 种 数据 查询 工具 的 普及 程度 。 简 而 言 之 , 很 多 访问 数据 的 
人 都 知道 如 何 编写 SQL 语句 ,要 知道 ,早期 的 Hadoop 采用 HDFS 作为 存储 系统 ,采用 MapReduce 
作为 计算 框架 ,在 Hadoop 推广 早期 Java 就 被 作为 实现 MapReduce 的 语言 ,如 末 你 需要 在 Hadoop 
中 执行 计算 和 访问 数据 ， 就 必须 编写 Java 代码 ， 特 别 是 MapReduce 程序 。 像 Facebook iX FERA 
公司 开始 意识 到 ， 无 法 雇用 足够 的 Java 开发 人 员 来 编写 大 量 MapReduce 代码 以 充分 利用 HDFS 
中 存储 的 海量 数据 。 为 了 促进 推广 和 便于 使 用 , 开发 人 员 需 要 将 MapReduce 的 复杂 性 抽象 出 来 ， 
文 持 一 种 更 加 通俗 易 懂 的 编程 语言 。 

这 个 问题 的 答案 就 是 SQL ( structured query language, 结构 化 查询 语言 ), 刚 开 始 , MapReduce 
还 被 视 为 计算 语言 ， 但 是 随后 就 被 降级 为 后 台 功 能 。Hive， 或 者 更 准确 地 说 是 HiveQL ， 成 了 一 
种 业务 分 析 师 更 愿意 采用 的 语言 ， 因 为 它 的 语法 看 起 来 与 SQL 很 相似 ， 而 且 它 还 可 以 利用 
MapReduce 的 易 并 行 处 理 能 力 。Hadoop 上 的 交互 式 SQL 成 为 支撑 Hive 的 理念 , 而 这 种 语言 本 和 号 
也 被 称 为 HiveQL. 


注意 至 于 为 何 将 Hive 作为 该 项 目的 名 称 ， 我 没有 找到 任何 有 关 的 历史 记载 。 在 最 初 的 论文 
( http://www.vldb.org/pvldb/2/vldb09-938.pdf ) 里 并 没有 提 到 这 个 名 称 的 由 来 .此 外 ,Facebook 
还 将 Hive 作为 MapReduce 的 抽象 层 ， 在 当时 ， 它 是 HDFS 的 唯一 计算 供 选 方案 。 此 后 引 
入 的 其 他 引擎 都 比 MapReduce 具有 更 强 的 交互 性 ,但 是 SQL 仍然 是 使 用 最 广泛 的 抽象 层 


Facebook 承认 HiveQL 的 最 初 设计 存在 缺陷 。 刚 开始 ，Hive 只 是 一 个 抽象 层 ， 无 法 解决 
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MapReduce 作为 面向 批 处 理 的 计算 架构 所 固有 的 缺陷 。 在 后 面 的 章节 中 我 们 将 看 到 ，Hive 和 
HiveQL 已 经 演进 成 为 一 种 框架 ， 可 以 在 我 们 所 熟悉 的 更 为 传统 的 交互 式 查询 引擎 上 运行 。Hive 
最 近 的 演进 已 经 将 它 从 一 个 运行 在 以 批 处 理 为 中 心 的 MapReduce 之 上 的 抽象 层 转变 成 一 种 框架 ， 
这 种 框架 能 够 实现 我 们 希望 从 交互 式 查询 引擎 获得 的 全 部 功能 。 正 如 我 们 将 在 后 续 章 节 中 看 到 
的 ，Hive 已 经 从 MapReduce 之 上 的 一 个 简单 SQL 层 ， 发 展 成 为 一 个 功能 完备 的 交互 式 框架 ， 运 
行 于 高 性 能 查询 引 敬 以 及 基于 代价 的 优化 磊 和 文件 层级 的 统计 之 上 。 

本 章 对 Hadoop 发 行 版 进行 概述 ， 主 要 目的 是 标准 化 本 书 所 使 用 的 产品 版 本 。 如 果 我 们 连续 
不 断 地 展示 每 个 发 行 版 的 每 个 示例 ， 就 很 容易 陷入 各 种 各 样 的 产品 之 中 ， 从 而 偏离 了 Hive 的 主 
Bi. 请 注意 ,除了 围绕 Tez 引擎 的 讨论 之 外 ， 本 书 所 提供 的 大 多 数 代码 都 可 以 在 任意 发 行 版 中 运 
行 。 另 外 ，Hive 的 架构 和 集群 的 架构 一 般 都 是 通用 的 , 适用 于 各 种 系统 。 本 草 只 做 简要 介绍 , 第 
3 章 将 更 详细 地 讨论 与 Hive 架构 相关 的 主题 。 
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在 深入 人 研究 Hive 的 架构 之 前 ， 首 先 要 谈 到 关于 Hadoop 第 见 的 “房间 中 的 大 象 ”“。 在 考虑 
安装 和 配置 的 供 选 方案 时 ,Hive 固有 的 开源 特性 以 及 Hadoop 和 其 他 ASF 项 目 都 会 带 来 一 些 困 扰 。 
有 很 多 种 不 同 的 方法 , 但 是 我 们 无 法 在 这 本 书 中 涵盖 所 有 方法 。 就 算 我 们 能 够 做 到 这 一 点 ， 本 书 
也 将 变 得 不 那么 吸引 人 了 ， 而 且 我 们 要 花 更 长 时 间 才 能 真正 开始 使 用 Hive. 

我 们 可 以 将 Hive 部 署 供 选 方案 分 成 两 个 基本 类 别 : 自行 配置 或 者 使 用 发 行 版 。 目 行 配置 方 
案 的 含义 就 是 你 要 自己 下 载 所 需 的 二 进 制 文件 , 并 且 自 己 安装 所 有 组 件 。 该 产品 是 开源 的 ， 所 以 
你 可 以 下 载 完整 的 产品 而 无 须 担 心 司空 见 惯 的 用 户 许 可 问题 。 这 也 意味 着 你 不 需要 支付 任何 费 
H, 甚至 不 需要 提供 任何 个 人 信息 ,而 且 最 重要 的 是 , 销售 人 员 不 会 给 你 打 电 话 。 这 种 方法 的 代 
价 就 是 配置 过 程 较为 复杂 ， 而 且 需 要 提升 系统 管理 技能 ， 尤 其 是 与 Linux 和 通用 Linux 软件 构建 
过 程 相关 的 一 些 技能 。 最 重要 的 是 ， 你 同时 还 必须 解决 自己 下 载 的 Hive 版 本 和 其 他 应 用 程序 之 
间 的 互 操 作 性 问题 。 


警告 ”如果 你 对 开源 领域 并 不 熟悉 ， 那 么 很 快 就 会 发 现 : 开源 社区 在 激情 和 创新 方面 有 多 少 优 
势 ， 在 标准 文档 方面 就 有 多 少 不 足 。 项 目 之 间 的 文档 质量 差别 很 大 。 在 有 些 项 目 中 ， 由 
于 对 受众 的 技术 水 平和 背景 存在 错误 认识 ， 而 省 略 了 关键 概念 和 步骤 。 不 过 总 的 来 说 ， 
我 认为 开源 文档 已 经 变 得 越 来 越 好 了 ， 有 些 项 目的 文档 甚至 比 专用 产品 的 文档 还 要 好 。 


如 果 你 是 一 位 业务 最 终 用 户 ， 和 希望 试用 产品 或 运行 教程 ， 那 么 我 并 不 推荐 这 种 方法 。 你 将 
花费 太 多 时 间 纠 结 于 Linux 管理 问题 。 此 外 ， 文档 是 很 有 限 的 ， 有 时 甚至 根本 就 没有 。 版 本 控制 
问题 也 可 能 会 让 人 担忧 。 各 个 产品 之 间 的 项 目 开 发 是 独立 的 , 所 以 各 个 项 目的 最 新 版 本 并 不 一 定 
相互 兼容 。 表 2-1 展示 了 在 本 书 撰写 之 际 ，3 个 最 知名 的 Hadoop 发 行商 ( Cloudera、MapR 和 


山 贡 国 谚语 ， 这 里 指 重 要 却 并 被 忽视 的 问题 MATE 
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Hortonworks ) 所 采用 的 各 种 ASF 项 目的 版 本 。 


表 2-1 ASF 项 目 版 本 

项 目 名 称 Cloudera CDH 5.7 MapR 5.1 Hortonworks 2.4 当前 版 本 
Accumulo N/A N/A 1.7.0 Lt 
Atlas N/A N/A 0.5.0 0.5.0 
Ambari N/A N/A 2.2.2 2.22 
Calcite N/A N/A 1.2.0 1.7.0 
Crunch 0.11.0 N/A N/A 0.14.0 
DataFu L.1.0 N/A 1.3.0 1.3.0 
Falcon N/A N/A 0.6.1 0.6.1 
Flume 1.6.0 1.6.0 1.5.2 1.6.0 
Hadoop 2.6.0 2.7.0 2.7.1 2;1.2 
HBase 1.2 1.1 1.12 BN 
Hive 1.1.0 1.2.1 PA 2.0.1 
Impala 2.5.0 2.2.0 N/A 2.5.0 
Knox N/A N/A 0.9.0 0.9.0 
Mahout 0.9.0 0.11.0 0.9.0 0.12.1 
Oozie 4.0.0 4.2.0 4.2.0 4.2.0 
Phoenix 4.3.0 N/A 4.4.0 4.7.0 
Pig 0.12.0 0.15.0 0.15.0 0.16.0 
Ranger N/A N/A 0.5.0 0.6.0 
Sentry [3.1 N/A N/A 1.6.0 
Slider N/A N/A 0.80.0 0.90.2 
Solr 355 4.10.3 5.4.1 6.0.1 
Spark 1.6.0 1.6.1 1.6.0 1.6.1 
Sqoop 1.4.6 1.4.6 1.4.6 1.4.6 
Storm N/A 0.9.4 0.10.0 1.0.1 
Tez N/A N/A 0.7.0 0.8.3 
Zookeeper 3.4.5 3.4.5 3.4.6 3.4.8 


ASF 项 目 并 不 需要 在 不 同 版 本 之 间 实 现 高 可 用 的 兼容 性 ， 
Cloudera, MapR 和 Hortonworks 是 3 家 主要 的 供应 商 。 每 家 供 
平台 ， 你 可 以 用 它 快 速 启动 和 运行 Hadoop 及 其 生态 系统 。 


这 是 Hadoop 发 行商 的 工作 。 
应 商都 提供 了 简单 的 启动 “ 沙 箱 


注意 表 2-1 并 没有 详尽 列 出 每 个 发 行 版 中 所 有 可 用 的 特性 ， 而 只 是 重点 列举 了 ASF 中 存在 的 
一 些 特性 ， 它 们 都 是 顶层 项 目 或 铬 化 器 项 目 ， nt ijp a 
准 特 性 。 列 为 N/A 的 项 目 并 不 意味 着 该 发 行 版 没有 这 项 功能 ， 其 主要 含义 是 说 这 项 功能 
Kd gp pt 
时 ， 这 些 版 本 已 经 改变 了 。 
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每 个 发 行 版 都 会 增加 功能 ,这 取决 于 社区 对 新 特性 的 接受 程度 ,以 及 那些 在 Cloudera 和 MapR 
要 提供 专 有 解决 方案 的 环节 。 例 如 ， 当 Spark 首次 发 布 时 ， 在 CDH 中 它 是 标准 配置 ， 但 是 
Hortonworks 直到 最 近 仍 然 只 是 将 其 作为 技术 预审 。 因 此 ，Spark 并 不 是 所 有 发 行 版 都 提供 的 标准 
产品 。MapR 采用 一 种 专 有 的 Apache Hadoop 版 本 ， 名 为 MapFS。Cloudera 和 MapR 的 发 行 版 中 
Abe f Hive， 但 是 它们 都 专注 于 自己 的 产品 ， 分 别 是 Impala 和 Drill. 

发 行 版 是 一 项 永远 在 进行 中 的 工作 ， 而 且 在 不 断 发 展 。 它 们 进行 了 有 机 整合 ， 随 着 技术 的 成 
部 和 衰落 而 不 断 成 长 。 它 们 注重 如 何 使 安装 、 集 成 , 以 及 在 操作 、 治理 和 安全 性 等 方面 更 加 便利 。 
最 后 , 发 行 版 提供 了 可 靠 的 技术 标准 , 并 提供 了 世界 项 级 的 工程 支持 来 帮助 你 展开 Hadoop 之 旅 。 


2.2 REFIR 


在 专门 讲述 Hive 之 前 , 首先 需要 快速 了 解 集群 设计 , 并 且 在 构建 和 扩展 Hadoop 集 群 时 设 定 
- 些 性 能 预期 和 通用 实践 。 这 是 一 本 讲述 Hive 的 书 , 而 不 是 讲述 Hadoop 架构 的 书 ， 因 此 我 们 将 
从 高 层 视角 来 介绍 如 何 设计 集群 。 我 们 还 将 回顾 Hadoop 集群 中 使 用 的 一 些 关键 术语 ， 这 将 帮助 
你 更 好 地 驾驭 和 理解 操作 Hive 所 依赖 的 平台 。 

由 于 数据 量 一 直 在 增加 , 总 是 有 用 例 在 数据 通道 之 中 , 因此 你 的 集群 将 会 不 断 增 长 。 集 群 可 
能 会 在 几 个 月 里 缓慢 增长 ; 随 着 公司 采用 新 用 例 和 新 增 业 务 领域 ， 集 群 也 可 能 会 迅速 增长 。 从 一 
开始 就 正确 配置 会 帮助 你 为 意 想 不 到 的 增长 做 好 准备 。 符 而 ，Hadoop 的 设计 是 面 回 增长 的 ， 也 
就 是 说 ， 很 容易 对 其 进行 扩展 以 满足 你 的 需求 。 

构建 集群 需要 确定 在 哪些 节点 上 放置 哪些 组 件 。 在 何 处 安装 服务 非 滑 关键 , 因为 它 既 会 影响 
集群 的 可 用 性 , 也 会 影响 集群 的 性 能 。 通常 , 管理 员 会 将 集群 服务 需 划 分 为 3 个 类 别 : SEHR aie 
边缘 服务 融和 工作 服务 器 。 主 服务 器 包含 所 有 被 认为 对 集群 的 健康 状况 至 关 重 要 的 组 件 , 通常 涉 
及 雷 要 高 可 用 性 的 组 件 。 工 作 服 务 需 包含 了 所 有 易 被 奉 换 或 者 停机 时 不 必 担 心 数据 丢失 的 集群 服 
务 。 下 面 是 希望 在 常见 集群 中 主 节 点 上 提供 的 服务 示例 。 

CQ NameNode 

C) JobTracker 

D ResourceManager 

D Secondary NameNode 

C HBase Master, HiveServer2 

CQ Oozie Server 

CQ Zookeeper 

C] Storm Server 

C) WebHCat Server 

Hadoop 厂商 习惯 于 将 集群 划分 成 3 种 类 型 : 小 型 、 中 型 和 大 型 。 用 多 少 节点 来 构成 小 型 、 
中 型 或 大 型 的 集群 通常 是 一 种 探索 性 的 练习 。 有 人 说 ， 如 果 你 能 够 管理 50 个 节点 的 集群 ， 那 么 
就 可 以 管理 1000 个 市 点 的 集群 。 一 般 来 说 ， 小 型 集群 通常 少 于 32 个 节点 ， 中 型 集群 的 节点 数 介 
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T 32 ~ 150， 而 大 型 集群 的 节点 数 则 通常 超过 150。 男 一 种 常见 的 设计 模板 是 要 看 你 的 集群 适用 
单个 机 架 还 是 多 个 机 架 。 小 型 集群 适用 单个 机 架 ， 而 中 型 和 大 型 集群 则 要 跨 多 个 机 架 。 

同样 ， 这 些 只 是 一 般 情 况 ， 具 体 细节 可 能 有 所 不 同 。 但 很 有 可 能 ， 如 果 你 的 集群 超过 32 个 
节点 或 者 跨 多 个 机 架 ， 那么 与 小 型 集群 相 比 ， 就 要 处 理 更 多 的 Hadoop 组 件 和 接口 ， 而 且 你 的 公 
司 要 决定 将 Hadoop 作为 组 织 的 核心 平台 并 承担 关键 功能 。 这 些 额 外 的 组 件 需 要 更 多 的 资源 ， 并 
日 需要 更 加 关注 跨 栈 的 灾难 恢复 、 高 可 用 性 和 安全 性 。 你 还 需要 密切 关注 网 络 配 置 。 这 包括 架 换 
交换 机 的 速度 以 及 架 内 市 点 之 间 的 市 宽 。 

小 型 集群 在 单 台 服务 器 上 运行 的 组 件 要 比 大 型 集群 多 。 随 着 集群 增长 ， 你 需要 考虑 将 主 组 件 
Iw. 并且 为 它们 提供 专用 节点 。 小 型 集群 是 概念 验证 、 项 目 试点 或 开发 环境 的 理想 选择 。 可 以 
考虑 使 用 云 服 务 来 实现 这 些 类 型 的 集群 ， 因 为 这 种 方式 成 本 相对 较 低 并 且 可 以 迅速 实现 。 像 
Google、 微 软 的 Azure 和 亚马逊 的 AWS 这 样 的 云 服 务 提 供 商 ， 都 有 快速 而 简单 的 方法 文 持 小 型 
集群 和 大 型 集群 。 你 可 以 选择 具有 最 少 管理 操作 的 PaaS (平台 即 服务 ) 方式 来 运行 集群 ， 如 果 
你 想 要 更 多 控制 ， 还 可 以 选择 laas ( 基础 设施 即 服务 ) 方式 。 

有 关 人 硬件 的 讨论 超出 了 本 书 的 范畴 ， 无 论 如 何 ， 任 何 有 关 便 件 规格 的 探讨 很 快 都 会 过 时 
Hadoop 已 经 足够 成 熟 , 并 且 引 起 了 数据 中 心 足 够 的 兴趣 ,因此 所 有 人 硬件 供应 商都 针对 Hadoop 42 
群 提 供 了 参考 架构 。 而 且 许 多 硬件 和 芯片 供应 商都 选择 与 各 家 供应 商 合 作 


注意 Hadoop 并 不 要 求 采用 主流 厂商 的 硬件 。 你 可 以 到 最 近 的 维修 点 或 本 地 二 手 市 场 购买 你 所 
能 找到 的 最 便宜 的 机 器 ， 尽 管 获 准 在 你 的 数据 中 心安 装 这 样 的 机 器 可 能 会 有 点 困难 。 请 
记 住 , 虽然 Hadoop EKER IEE, 但 是 主 服务 器 仍然 是 SPOF ( 单 点 故障 ), 这 一 点 需要 
予以 适当 考虑 。 


Hive 客户 端 安装 在 所 有 工作 节点 上 。 在 与 Hive 交互 时 ， 你 很 可 能 会 通过 类 似 于 Ambari 或 
Hue 这 样 的 Web 门户 访问 它 。 这 些 服务 需 往 往 安装 在 边缘 节点 上 。 边缘 节点 的 资源 较 少 , 也 没有 
主 服务 硕 组 件 。 请 记 住 ， 这 些 玉 点 可 能 含有 像 其 他 关系 数据 库 系 统一 样 需 要 备份 的 元 数据 存储 . 
你 可 以 将 边缘 节点 看 作 管 理 服务 器 甚至 Web 服务 器 。 边 缘 节 点 可 能 含有 一 些 操作 软件 ( 例如 
Ambari, MCS 或 Cloudera Manager ) 以 及 Pig 或 Hive 等 客户 闪 组 件 。 它 们 也 可 能 被 用 作 防 火 十 ， 
例如 Apache Knox 这 样 的 情况 。 关 键 在 于 , 边缘 节点 往往 是 小 型 服务 融 ,， 它们 的 主要 用 途 是 充当 
客户 端 进入 大 型 Hadoop 基础 设施 的 网 关 。 由 于 可 能 出 现 大 量 应 用 程序 记录 日 志 ， 你 也 可 能 仍然 
布 望 提 供 具 有 相当 存储 量 的 边缘 节点 。 

男 一 种 看 待 边缘 节点 的 方法 是 将 其 作为 包含 非 分 布 式 组 件 的 管理 服务 禹 。 例 如 ，Ambari fF 
为 单个 实例 运行 ， 并 没有 分 布 在 多 个 节点 上 。NameNode 具有 相同 的 特性 。 由 于 这 些 组 件 对 集群 
至 关 重 要 却 不 是 分 布 式 的 ， 因 此 需要 设计 一 个 管理 节点 来 考虑 容错 。 管 理 服务 需 往 往 对 RAM 要 
比 存储 器 更 加 敏感 ， 通 稼 并 不 需要 为 管理 服务 天 配置 大 量 存 储 空间 。 图 2-1 给 出 了 一 幅 简 图 ， 展 
示 了 客户 问 、 管 理 节 点 、 工 作 节 点 以 及 通 芝 存放 在 它们 之 上 的 组 件 。 
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客户 端 


Hive 


Pig 

管理 服务 
Name 
JobTracker 


图 2-1 集群 设置 


[& 2-1 中 的 线 表示 客户 痕 可 以 与 集群 交互 的 方式 。 你 可 以 通过 RESTful API 或 Web 浏 览 器 直 
接 访问 管理 节点 上 的 管理 工具 。 另 一 种 方法 是 通过 访问 NameNode 并 请 求 文件 和 块 信息 的 方式 将 


数据 传输 到 HDFS， 然 后 直接 使 用 DataNode 开展 工作 。 同 样 ， 还 有 许多 因素 会 使 你 的 整体 集群 
Wil oes 2e. JEH.nT BERS ee MRS ee, 例如 , 你 可 能 需要 一 个 专用 的 HiveServer2 


实例 或 一 个 用 作 Knox 安全 网 关 的 服务 硕 。 你 甚至 可 以 使 用 一 个 包含 多 个 NameNode 或 附加 
NameNode om 合集 群 来 获得 高 可 用 性 故障 转移 。 这 些 都 需要 你 在 进行 内 部 操作 时 与 安全 团队 以 
及 区 域 经 销 商 进 行 充分 商讨 

关键 在 于 ，Hive 只 是 庞大 的 Hadoop EA KZ sc 一 个 很 小 的 组 成 部 分 。 没 有 人 会 构建 一 个 仅 
运行 Hive 的 Hadoop 集群 。 向 建 集群 有 数 不 清 的 理由 , 包括 ETL ak ( ETL offload )、 接 收 和 持久 
化 流 式 传 感 大 数据 等 。 集 群 很 可 能 需要 包括 像 d 文 样 的 应 用 程序 ( 用 于 文本 搜索 ), 或 者 HBase 
用 于 类 似 于 事务 处 理 的 处 理 操 作 )。 集 群 设计 和 调 优 本 身 就 需要 写 一 本 书 ， 不 过 ， 在 此 只 要 知道 
Hadoop 集群 是 一 个 通用 的 平台 环境 ， 它 则 在 改变 组 织 管理 、 存 储 和 分 析 所 有 数据 的 方式 ， 
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2.3 Hive 的 安装 


尽管 Hadoop 发 行 版 中 打包 了 所 有 特性 和 功能 , 但 我 们 的 关注 点 仅 在 于 Hive. 在 撰写 本 书 时 ， 
最 新 发 布 的 Apache 版 本 是 Hive 2.0.1。 尽 管 此 时 最 新 版 本 是 2.0.1， 但 是 在 接 下 来 的 章节 中 仅 使 
用 Hive 1.2.1 版 本 ,因为 它 是 Hadoop 发 行 版 中 测试 和 提供 的 最 新 版 本 。 如 果 你 已 经 开始 使 用 CDH 
5.7( 它 及 用 了 市 有 补丁 的 Hive 1.1 )， 其 中 大 多 数 功 能 仍然 可 用 。 但 是 涉及 Tez 引擎 的 功能 不 可 
用 ， 因 为 Cloudera 并 不 支持 Tez 作 为 SQL 引擎 。 

本 书 将 重点 关注 Hortonworks 发 行 版 中 Hive 的 Apache 版 本 。 之 所 以 这 样 做 ， 是 因为 Hive 
的 开源 版 本 实际 上 是 标准 的 黄金 版 本 。 对 内 核 代 码 的 任何 增加 或 减少 都 不 能 完全 代表 开源 社区 心 
目 中 的 Hive， 或 者 更 确切 地 说 ， 给 定 版 本 中 专门 增加 或 省 略 的 那 部 分 内 容 并 不 能 代表 Hive 
Hortonworks 是 最 接近 Apache 版 本 的 发 行 版 。Cloudera 在 其 发 行 版 中 提供 了 Hive， 但 它们 的 
SQL-on-Hadoop 解决 方案 主要 聚焦 在 Impala E» MapR 基于 Google 的 Dremel 对 Drill 进行 了 标准 
化 。 比 较 产 品 之 间 的 特性 超出 了 本 书 的 范畴 。 你 只 要 知道 自己 有 很 多 选择 , 但 不 是 所 有 的 解决 方 
案 都 相互 排斥 。 基 于 本 书 的 写作 主旨 ， 在 此 将 按照 Apache 版 本 来 讲解 Hive， 以 确保 本 书 讨论 的 
所 有 特性 和 可 选项 都 能 按照 预期 执行 。 

有 很 多 方法 可 以 “进入 ”Hadoop。 本 书 的 读者 中 能 够 访问 多 节点 集群 的 很 少 。 如 果 你 是 其 中 
的 一 位 ,可 能 想 要 跳 到 下 一 章 ， 你 也 可 以 继续 跟 进 并 安装 自己 的 个 人 环境 。 通 过 了 解 基 本 设置 和 
安 六 过 程 ， 肯 定 也 会 有 一 些 收获 。 对 于 其 他 读者 ， 我 们 认为 至 少 要 完成 下 列 选项 中 的 一 个 

O 使 用 Apache.org 网 站 上 的 Apache 代码 安装 Hadoop 和 Hive. 

OQ 借助 厂商 ( 比如 Hortonworks , Cloudera 或 MapR ) 网 站 上 的 文档 说 明 安装 Hadoop 和 Hive 

Q 使 用 Hortonworks 、Cloudera 或 MapR 提供 的 虚拟 沙 箱 安装 Hadoop 和 Hive. 

OQ 在 云 服 务 ( 比如 Google, Azure 或 AWS ) 上 安装 Hadoop。 

在 这 4 个 选项 中 , 我 强烈 推荐 第 3 个 或 第 4 个 。 本 书 将 重点 讨论 沙 箱 这 一 选项 。 我 还 想 强 调 
一 下 采用 云 服 务 的 易 用 性 。 每 个 云 服 务 提 供 商 在 市 场 上 都 有 自己 的 发 行 版 , 这 使 得 配置 集群 成 为 
一 项 非 党 简单 的 工作 。 大 多 数 云 服 务 提 供 商 也 有 自动 沙 箱 安装 。 如 果 你 碰巧 有 某 个 云 服 务 提 供 商 
的 账户 ， 强 烈 建 议 你 学 习 本 书 时 使 用 该 环境 。 如 果 你 决定 不 使 用 发 行 版 而 手动 安装 Hive, IA 
与 安装 完整 的 Hadoop 应 用 程序 相 比 , 整个 安装 过 程 微不足道 , 虽然 Hive 仍然 需要 一 个 集群 来 进 
行 各 种 数据 处 理 。 你 还 可 以 选择 通过 GZIP 文件 安装 Hive, 或 者 通过 像 Maven 这 样 的 项 日 构建 器 
从 源 代 码 构建 Hive。Apache.org 的 Hive 站 点 中 有 构建 Hive 的 所 有 步骤 。 


注意 之 所 以 再 次 重申 ， 是 因为 我 们 知道 有 些 读 者 会 觉得 本 书 中 缺少 一 些 内 容 ， 但 这 是 一 本 讲 
解 Hive 的 书 ， 而 不 是 介绍 “如 何 安 装 Hadoop” 的 书 。 目 前 市 面 上 的 大 多 数 图 书 都 有 关 
于 如 何 从 源 代码 中 安装 Hadoop 的 章节 ,但 是 在 很 多 情况 下 ,这 些 说 明 都 不 完整 ,或 者 当 
书 出 版 之 后 就 过 时 了 。 本 书 着 重 介 绍 最 简单 的 起 步 方 法 ， 这 样 你 就 可 以 快速 启动 和 运行 
你 的 Hive 环境 了 。 


23 Hive 的 安装 31 


安装 一 个 发 行 版 的 虚拟 环境 可 以 很 好 地 支持 对 本 书 的 学 习 。 你 并 不 需要 一 个 功能 完备 且 高 可 
用 的 集群 来 运行 本 书 所 给 出 的 练习 。 我 们 不 会 过 分 关注 性 能 。 但 是 , 为 了 运行 虚拟 机 和 存储 必要 
的 数据 集 ， 你 需要 有 足够 的 存储 和 人 处理 能 力 。 典 型 的 虚拟 Hadoop 沙 箱 环境 具有 以 下 开 盒 即 用 的 
Wok: 

Q 虚拟 机 应 用 程序 : VMWare 或 VirtualBox 

O 至 少 8GB 内 存 

O 至 少 1GB 存储 空间 

Hid 2 vCPU 

通常 资源 越 多 越 好 ,但 是 我 们 在 此 要 测试 的 是 功能 ， 而 不 是 性 能 。 在 现实 世界 中 ， 你 并 不 想 
尝试 将 TB 或 PB 级 规模 的 数据 堆放 到 单 节点 集群 上 的 Hive Po 如果 你 还 要 用 到 HBase 等 其 他 工 
具 ， 就 需要 更 多 的 处 理 资源 ， 可 能 需要 考虑 增加 足够 的 RAM. 我 们 试图 使 本 书 所 用 到 的 数据 集 
足够 大 ， 以 引起 你 的 兴趣 ,但 是 实际 上 它 还 是 很 小 , 可 以 在 普通 的 工作 站 上 进行 操作 。 你 可 以 是 
制 更 大 规模 的 数据 集 ， 因 此 如 果 你 愿意 , 可 以 使 用 更 大 的 数据 集 进 行 测试 并 做 进一步 洞察 。 你 可 
以 耗 尽 工作 站 的 计算 资源 ， 但 是 无 法 压 垮 Hive 和 Hadoop。 

-个 发 行 版 下 载 最 多 可 达 8.SGB。 如 前 所 述 ， 本 书 使 用 的 主 发 行 版 是 Hortonworks 沙 箱 。 
Hortonworks 沙 箱 不 需要 软件 许可 证 。 不 需要 任何 软件 许可 就 意味 着 刚 开 始 使 用 该 技术 的 人 可 以 
获得 更 好 的 测试 和 开发 体验 , 因为 并 不 会 限制 你 在 给 定时 间 段 内 使 用 该 产品 , 也 不 会 限制 你 使 用 
全 部 工具 ,本 书 的 作者 并 不 反对 你 下 载 和 使 用 其 他 发 行 版 本 ,这样 可 以 体验 到 各 个 版 本 的 相似 点 
和 不 同 点 。 各 个 发 行 版 都 带 有 Hive， 不 过 Hortonworks 是 Hive 倡议 的 主要 赞助 商 , TE Hive 开发 
中 投入 了 大 量 资金 。 

Hive 是 一 个 使 用 HDFS 实现 后 端 存储 的 客户 端 应 用 程序 。Hive 中 还 包含 其 他 服务 硕 和 功能 
组 件 ， 例 如 HiveServer2 和 HCatalog。 关 于 这 些 组 件 和 其 他 结构 的 详细 内 容 将 在 第 3 草 中 讨论 。 
日 前 只 需 知 道 安装 Hive 本 质 上 就 是 在 Hadoop 集群 上 安装 一 个 客户 站 应 用 程序 就 可 以 了 。 你 需要 
为 Hive Client 以 及 Hive Metastore ( HCatalog ) 和 HiveServer 指定 市 点 。 它 们 中 的 每 一 个 都 将 作 
为 单独 的 服务 运行 。 图 2-2 显示 了 通过 Ambari 2.2.2 控制 台 提 供 的 服务 。 当 运行 Hortonworks 沙 
第 时 , 你 可 以 通过 本 地 回 传 地 址 或 用 DNS 地 址 sandbox.hortonworks.com 加 上 Ambari Ym O 5736 322 
天 Ambari. ZED YEAR (最 好 是 Firefox 或 Chrome ) 中 输入 以 下 内 容 : http://sandbox.hortonworks. 
com:8080. 


Summary —Gonfigs Service Actions * 


Hine Metastorm Co Staned 
Vie ary UO Started 

Why Kn Seryer C) Started 
VWwieticat Sw 0 Started 


bis dod i Hi Colbert Drasta 


图 2-2 Ambari 中 的 Hive 服务 
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注意 ， 有 5 个 与 Hive 相关 的 服务 正在 运行 : Hive Metastore, HiveServer2, MySQL Server, 
WebHCat Server 和 Hive Client。 所 有 这 些 服务 对 于 操作 Hive 来 说 都 是 必需 的 ， 在 后 续 章 节 中 会 
更 详细 地 讨论 每 个 服务 。 

Summary 面板 中 显示 的 每 个 服务 都 安 法 在 同一 个 节点 上 。 沙 箱 在 所 谓 的 伪 分 布 模式 下 运行 
Hadoop。 其 本 质 是 骗 过 Hadoop 系统 ， 使 之 认为 它 运行 在 一 个 集群 之 上 , 但 是 实际 上 它 只 是 运行 
在 单个 节点 上 。Hadoop 复 本 设置 为 1 (在 多 节点 集群 上 默认 为 3 )， 这 意味 着 对 于 我 们 的 安装 来 
说 ， 并 不 关心 容错 或 高 可 用 性 。 这 种 方式 对 于 我 们 的 演示 和 示例 而 言 很 好 用 。 

无 论 你 选择 Ambari、MCS 还 是 CM, 这 些 产品 都 提供 了 管理 Hive 服务 以 及 改变 和 查看 配置 
设置 的 方法 。 在 每 个 产品 中 ,你 都 可 以 停止 和 启动 服务 ,查看 运行 的 查询 和 作业 ， 以 及 检查 节点 
的 资源 健康 状况 。 每 个 产品 都 是 一 个 作业 应 用 程序 ， 不 仅 用 于 管理 Hive， 还 用 于 管理 集群 上 运 
行 的 其 他 所 有 服务 组 件 。 由 于 你 很 可 能 是 自己 电脑 上 个 人 版 Hadoop 的 唯一 所 有 者 ， 因 此 还 需要 
熟悉 如 何 管理 环境 。 你 要 经 常用 到 操作 工具 来 更 改 Hive 的 运行 配置 文件 。 作 为 一 名 开发 人 员 或 
业务 分 析 师 ,你 好 像 并 没有 太 多 理由 去 使 用 这 些 工 具 , 不 过 , 熟悉 它们 的 各 个 选项 对 于 保持 环境 
正常 运行 仍然 是 有 好 处 的 ， 可 以 帮助 你 从 这 于 产品 中 获得 最 大 价值 。 
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现在 ， 你 所 有 的 Hive 服务 上 都 显示 绿色 图 标 了 ,你 已 经 准备 好 将 Hive 作为 SQL-on-Hadoop 
工具 了 。Ambari 视图 为 通过 图 形 用 户 界面 执行 Hive 查询 提供 了 一 种 简单 的 方法 。 你 也 可 以 使 用 
类 似 SQuirreL SQL 的 其 他 第 三 方 应 用 程序 连接 你 的 Hive Metastore。 在 我 们 的 练习 中 ， 将 通过 命 
令 行 (CLI) 和 Ambari 视图 来 使 用 HiveQL。 这 些 都 是 开发 工具 ， 人 允许 你 对 Hive 表 执 行 SQL fr 
询 , 以 及 导入 目 定 义 的 UDF 或 SerDe。 但 它们 并 不 是 分 析 工 具 ! 还 有 很 多 分 析 工 具 可 以 通过 ODBC 
或 JDBC 连接 到 Hive。 后 面 的 草 节 会 介绍 其 中 一 些 广 受 欢 迎 的 工具 。 


注意 现在 大 可 不 必 担 心 像 UDF 或 SerDe 这 样 的 术语 。 有 些 人 已 经 熟知 SQL， 应 该 知道 用 户 定 
MHF (UDF) 是 用 来 干什么 的 ， 这 在 Hive 中 也 并 没有 太 多 区 别 。SerDe 则 是 一 个 不 同 
的 概念 ， 我 们 将 在 后 续 章节 中 讨论 它 。 


正如 前 面 提 到 的 ， 与 Hive 进行 交互 的 方式 主要 有 两 种 : 命令 行 和 Ambari 视图 。 图 2-3 展示 
了 Ambari 2.2.2 中 的 Hive 视图 。 

对 于 熟悉 SQL 查询 工具 的 人 来 说 ， 这 样 的 界面 应 该 是 比较 直观 的 。 该 界面 的 主要 部 件 包括 
工具 栏 、 数 据 库 资 源 管理 咒 (Database Explorer ), frify£mtttas ( Query Editor ) 以 及 各 种 配置 和 管 
理 选项 。 你 可 以 在 查询 编辑 器 中 输入 HiveQL 语句 ， 然 后 点 击 Execute 按钮 运行 查询 。 你 可 以 使 
用 工具 栏 来 查看 已 保存 的 查询 ,并 查看 已 执行 查询 的 历史 。 请 记 住 ，Hive 有 数 百 个 配置 设置 。 你 
可 以 选择 在 运行 时 更 改 环 境 设 置 , 或 者 通过 Ambari 中 的 Hive 服务 来 管理 配置 。 其 中 一 些 设置 将 
在 后 续 草 节 讨 论 。Ambari 视图 是 为 最 终 用 户 设 计 的 ， 而 不 是 为 管理 员 设 计 的 。 通 常 ， 业 务 分 析 
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师 或 SQL 开发 人 员 可 使 用 Hive 视图 来 执行 和 测试 针对 其 数据 集 的 查询 。 


biwa — Query —— Saved Queen Hitoy UD 


Database Explorer a Query Editor 9^ 
defaut M Worksheet it 
: SE 
o 
Databases , EN 
3 TEZ 
z 

=~ 一- 


图 2-3 Ambari 视图 


数据 库 资 源 管理 器 窗口 的 功能 类 似 于 SQL 中 的 USE 命令 。 你 可 以 选择 你 要 访问 的 任何 数据 
库 ， 而 每 个 数据 库 都 有 自己 的 表 列 表 。 如 果 没 有 指定 数据 库 ， 那 么 Hive 会 使 用 一 个 名 为 default 
的 数据 库 。 要 查看 数据 库 中 有 哪些 表 , 可 以 选择 数据 库 , 也 可 以 在 查询 编辑 华中 执行 show tables 
查询 。 

如 果 你 已 经 安装 了 沙 箱 , 就 应 该 会 看 到 两 个 表 , Bll sample 07 和 sample 08. 在 连接 到 default 
数据 库 时 ， 可 在 查询 编辑 器 中 执行 以 下 查询 。 在 输入 该 查询 之 后 ， 按 下 Execute 按钮 。 


SELECT * FROM sample 07; 


Hive SQL 也 被 称 为 HiveQL。 当 你 从 Hive AM sat as LAAT AA , HAREN E 
可 选项 。 稍 后 我 们 将 会 看 到 ,， 当 通过 命令 行 执行 HiveQL It, Hive 要 求 在 每 条 语句 的 结尾 使 用 分 
号 。HiveQL 也 不 区 分 大 小 写 。 为 了 便于 阅读 ， 我 们 将 以 大 写 形式 显示 所 有 HiveQL 的 专用 命令 
图 2-4 显示 了 查询 的 输出 结 

当 你 在 Hive 中 创建 表 和 数据 库 时 , 它们 将 在 HCatalog 中 出 现 。 HCatalog 为 除 Hive 之 外 的 其 
他 应 用 程序 提供 了 访问 这 些 表 的 方法 , 使 你 避免 了 为 每 个 应 用 程序 都 重新 创建 一 个 表 。HCat KAI 
你 创建 的 任何 Hive 表 一 样 , 都 可 以 通过 ODBC 或 JDBC 连接 访问 , 也 可 以 通过 特定 的 HCat 加 载 
avila), A HCat 和 连接 Hive 表 的 细节 内 容 将 在 后 续 章 节 中 讨论 。 现 在 只 需要 知道 HCat 表 和 
Hive 表 本 质 上 是 相同 的 ， 而 Hive 为 存储 在 Hadoop 中 的 数据 文件 创建 模式 提供 了 方法 。 
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Query Editor 


Worksheet 


| SELECT * FROM sample 07; 


EM Opan — Save as. 


Query Process Results (Status: Succeeded) 


Logs Results 


Peter Gola, 


sampie 07.code  sampie 07.description 


00-0000 Ali Occupations 

11-0000 Management occupations 

11-1011 Chief executives 

11-1021 General and operations managers 
11-1031 Legisiators 

11-2011 Advertising and promotions managers 
11-2021 Marketing managers 

11-2022 Sales managers 

11-2031 Public relations managers 

11-3011 Administrative services managers 
11-3021 Computer and information systems managers 
11-3031 Financial managers 

11-3041 Compensation and benefits managers 
11-3042 Training and development managers 
11-3049 Human resources managers, all other 


sample 07.total emp 


58100 


图 2-4 查询 sample 07 的 执行 结 


99810 
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Hive 的 魅力 不 在 于 它 与 传统 SQL 区 别 有 多 大 ， 而 在 于 它 与 SQL 有 多 相似 。 基 于 查询 语法 和 
查询 结果 , 你 可 能 无 法 想象 自己 正在 分 布 式 架构 的 数 百 个 节点 上 , 针对 一 个 被 分 解 为 若干 数据 块 
的 原始 数据 文件 运行 命令 。 此 外 ， 你 可 能 要 对 好 几 TB 的 数据 进行 查询 ,但 是 其 响应 时 间 与 在 传 
统 的 关系 系统 上 查询 几 GB 数据 的 响应 时 间 差 不 多 。 

当然 ，Hive 的 开 箱 即 用 性 能 并 不 像 RDBMS 那样 好 。 它 相当 于 运行 一 个 没有 索引 的 查询 。 还 
有 你 要 熟悉 的 一 些 性 能 最 佳 实践 ， 例 如 使 用 ORC 文件 、Hive 索引 和 表 分 区 。 这 些 将 在 有 关 Hive 
性 能 的 章 市 中 进行 讨论 ,还 要 记 住 , Hive 是 一 个 分 析 工 具 , 不 会 取代 现 有 的 联机 事务 处 理 ( OLTP ) 
过 程 。 这 种 对 处 理 的 预期 与 ANSI SQL 和 HiveQL 之 间 的 相似 性 是 差不多 的 。 例 如 ， 你 可 以 要 求 
看 到 窗口 功能 , 但 是 并 不 能 看 到 触发 器 。 尽管 Hive 是 可 扩展 的 , 但 是 这 并 不 意味 着 你 可 以 将 Hive 
作为 电子 商务 的 购物 车 应 用 程序 ， 至 少 现在 还 不 行 。 


2.5 Hive CLI 


除了 图 形 界面 选项 之 外 ,Hive 还 提供 了 一 个 命令 行 界面 , 用 于 管理 和 运行 脚本 、 数 据 定 义 命 
令 和 数据 操作 命令 。 命 令 行 使 用 户 与 Hive 的 交互 更 具 灵 活性 ， 并 且 开 销 较 低 。 

Hive CLI 对 于 快捷 的 SQL 工作 或 简单 的 脚本 运行 来 说 非常 有 用 。 本 节 并 不 会 深信 讨论 关 于 
Hive CLI 的 细节 内 容 , 但 将 会 告诉 你 要 从 何 处 人 手 。 要 连接 到 Hive CLI, 需要 使 用 以 下 命令 连接 
到 沙 箱 : 

ssh root@sandbox.hortonworks.com -p 2222 

在 命令 提示 处 输入 你 的 密码 ,这 将 在 沙 箱 上 启动 一 个 ssh 会 话 , 你 将 以 root 用户 的 身份 登录 。 
在 命令 行 中 ,键入 hive。 在 显示 了 一 些 初始 配置 之 后 ， 你 的 命令 提示 符 现在 应 该 显示 为 hive>。 
下 面 是 一 步 步 登录 到 沙 箱 并 局 动 HiveCL 的 命令 。 


HW10882:~ sshaw$ ssh root@sandbox.hortonworks.com -p 2222 
root@sandbox.hortonworks.com's password: 

Last login: Sun Jun 12 17:14:05 2016 from 10.0.2.15 
[rootQsandbox ~]# hive 

WARNING: Use "yarn jar" to launch YARN applications. 


Logging initialized using configuration in file:/etc/hive/2.4.0.0-169/0/hive-log4j. 
properties i 
hive> 


你 可 以 在 提示 符 处 执行 所 有 常规 HiveQL 命令 。 唯 一 的 区 别 是 所 有 语句 的 结尾 都 要 用 分 号 。 
如 果 语 名 的 结尾 没有 出 现 分 号 ， 则 按 下 Enter 键 将 会 开始 一 个 新 行 。 如 果 你 碰巧 在 没有 输入 分 号 
的 时 候 按 下 了 Enter 键 ， 那 么 可 以 继续 在 新 行 上 输入 分 号 ， 而 Hive 将 执行 上 一 行 语 句 。 

让 我 们 开始 在 命令 行 输入 show tables 命令 并 且 按 下 Enter 键 ,下 面 的 代码 演示 了 show tables 
命令 ， 以 及 针对 sample_07 表 的 SELECT 语句 。 注 意 , 我 们 在 查询 中 添加 了 一 个 LIMIT 命令 。 这 和 
SQL 一 样 ，LIMIT 命令 设置 的 值 限 制 了 显示 行 数 。 ! 


hive» show tables; 
OK 
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‘sample 07 

sample 08 

Time taken: 7.651 seconds, Fetched: 2 row(s) 
hive> SELECT * FROM sample 07 LIMIT 10; 


OK 

00-0000 All Occupations 134354250 40690 
11-0000 Management occupations 6003930 96150 
11-1011 Chief executives 299160 151370 
11-1021 General and operations managers 1655410 103780 
11-1031 Legislators 61110 33880 
11-2011 Advertising and promotions managers 36300 91100 
11-2021 Marketing managers 165240 113400 
11-2022 Sales managers 322170 106790 
11-2031 Public relations managers 47210 97170 
11-3011 Administrative services managers 239360 76370 
Time taken: 3.163 seconds, Fetched: 10 row(s) 

hive> Š 


和 SQL —fÉ, Hive 有 很 多 方式 可 以 查看 关于 对 象 的 元 数据 。 还 有 几 种 方法 可 以 查看 表 的 详 
细 信 息 。 请 尝试 执行 下 列 命 令 中 的 一 个 或 全 部 ; 


DESCRIBE sample 07; 
DESCRIBE EXTENDED sample 07; 
DESCRIBE FORMATTED sample 07; 


要 离开 HiveCL 提示 符 ， 只 需 输 入 exit 和 分 号 即 可 。 该 操作 将 使 你 返回 到 shell 命令 行 。 希 望 
这 种 快速 练习 有 助 于 回 你 展示 使 用 Hive 查看 和 操作 数据 是 有 足够 的 可 选 方案 的 ， 对 于 熟悉 SQL 
的 人 来 说 应 该 很 熟悉 这 一 点 。Facebook 创建 了 Hive， 从 业务 分 析 人 员 手 中 将 Java MapReduce $ 
象 出 来 ， 使 那些 主要 负责 观察 数据 、 提 取 有 价值 的 分 析 见 解 并 且 熟 悉 SQL 的 人 能 够 访问 Hadoop, 
自从 Hive 创建 以 来 , 它 在 性 能 和 SQL 语法 的 外 延 上 都 有 了 显著 的 发 展 。 现在, 很 多 公司 都 将 Hive 
作为 Hadoop 平台 之 上 的 主要 模式 来 开展 分 析 工 作 。 

本 章 旨 在 概述 你 可 以 在 Hive 中 看 到 什么 以 及 可 以 完成 什么 工作 ， 目 的 是 帮助 你 初步 了 解 
Hive 环境 。 后 续 章 市 将 深入 挖 气 和 探索 Hive 的 全 部 功能 。 从 表面 上 看 ，Hive 很 简单 。 它 支持 你 
快速 开始 对 原始 结构 化 数据 和 半 结 构 化 数据 应 用 标准 SQL 语法 ,但 是 Hive 的 功能 远 远 不 止 如 此 . 
Hive 具有 很 强 的 适应 性 , 可 以 读 取 各 种 类 型 的 文件 并 生成 新 的 存储 文件 , 进而 获得 近 实 时 的 查询 
性 能 。 许 多 现 有 分 析 工 具 都 可 以 用 于 访问 你 所 创建 的 Hive 表 ， 就 像 访 问 传统 关系 数据 库 一 样 ， 
用 户 根本 不 知道 他 们 正在 查询 的 表 实际 上 是 CSV, JSON, XML 或 其 他 类 型 的 文件 。 

Hive 是 事实 上 的 标准 ,也 是 使 用 最 广泛 的 SQL-on-Hadoop 工具 。Hive 完全 以 开源 形式 存在 ， 
而 且 来 自 各 类 公司 的 代码 提交 者 一 直 致 力 于 开发 和 改进 工作 。 当 你 开始 Hive 之 旅 的 时 候 ， 就 会 
发 现 它 是 一 个 奇妙 的 工具 ， 因 为 它 不 仅 简单 易 用 而 且 能 够 实现 复杂 的 分 析 操 作 。 


第 3 章 


Hive 架构 


本 草 将 详细 介绍 Hive BEGDBTERUEJ, Aya eRe ntt S n A ART Be ce See TEAS 
章 中 ， 你 将 了 解 是 什么 在 推动 Hive at, FUR AAR ARRAS PRN OME. EEN, 
Hive 是 复杂 的 , 但 是 它 的 复杂 性 是 可 以 克服 的 , 那些 经 第 访问 数据 的 人 也 会 对 此 很 熟悉 。 还 有 一 
点 请 牢记 , 与 任何 软件 开发 项 目 一 样 ，Hive 也 在 不 断 变化 而 且 变 化 很 快 。SQL-on-Hadoop 领域 的 
昔 争 正 以 怀 人 的 速度 推动 春 社区 创新 。 本 和 章 将 帮助 你 掌握 Hive 的 核心 ， 助 你 不 断 前 行 。 


3.1 Hive 组 件 
Hive 不 是 一 种 独立 的 工具 ， 它 依赖 于 各 种 组 件 来 存储 和 查询 数据 。 在 Hadoop 生态 系统 中 ， 


Hive 被 看 作 一 种 客户 病 数 据 访问 工具 。 数据 访问 需要 计算 、 存 储 、 管 理 以 及 一 个 安全 框架 。 图 3-1 
显示 了 这 些 组 件 的 总 体 框图 。 


图 3-1 Hive 组 件 
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正如 前 面 提 到 的 ，Facebook 开发 Hive 旨 在 将 编写 MapReduce ( Java 编程 ) 的 复杂 性 剥离 出 
Ko 这 种 方法 克服 了 Hadoop 采用 和 访问 过 程 中 的 严重 陆 但 , 不 过 尽管 Hive 听 起 来 和 用 起 来 部 很 
像 SQL, 但 它 仍然 不 是 SQL， 尤 其 体现 在 处 理 速 度 方面 。 底层 的 Hive 查询 仍然 以 MapReduce 作 
业 的 形式 运行 。MapReduce 是 批 处 理 ， 而 SQL 则 是 一 种 交互 式 处 理 语 言 ， 
注意 在 某 种 程度 上 ， 那 些 被 认为 是 批 处 理 、 交 互 式 处 理 和 实时 处 理 的 东西 值得 商 椎 EX 
处 理 的 标准 定义 是 运行 时 间 在 两 秒 钟 左右 的 处 理 。 批 处 理 往往 会 运行 得 更 久 ， 而 实时 处 
理 则 要 快 得 多 。 dais 的 最 好 的 解释 是 将 交互 式 处 理 看 作 “ 人 工时 间 "”， 而 将 实时 处 理 
看 作 “ 机 器 时 间 x 想起 传感器 数据 流 。 最终 每 个 人 和 每 个 公司 都 需要 确定 SLA 
(服务 水 平 协 议 ). 


在 早期 ， 这 种 混合 了 交互 式 SQL 查询 的 体验 变 成 厂 “ 等 竺 一天， 直到 它 完 成 ”的 体验 ， 
让 传统 的 商业 智能 专家 感到 诅 丧 。 对 于 那些 只 想 要 交互 式 数据 分 析 的 终端 用 户 来 说 ， 可 # 
m 2 Er a s BX EY FE A), POSEE ERR AS Be Deed RT LR I] EE S ELA AX 

得 更 多 的 计算 资源 并 加 速 处 理 , 但 这 并 不 是 提高 Hadoop il 法 和 策略 

其 他 Hadoop 分 销 商 看 到 了 交互 式 查询 的 巨大 需求 ， 并 开始 开发 目 己 的 技术 实现 。 举 儿 个 例 
子 ， 例 如 Cloudera 的 Impala, Pivotal 的 HAWQ ( 现在 是 Apache HAWQ， 以 及 由 Apache HAWQ 
提供 的 Hortonworks HDB ), MapR 的 Drill , Google 的 BigQuery , IBM 的 Big SQL , Actian 的 Vortex 
和 Jethro SQL 等 。 即 便 是 现在 ， 该 领域 仍 在 继续 增长 ， 因 为 其 他 像 SparkSQL 这 样 的 处 理 引擎 也 
设计 了 目 己 独特 的 SQL-on-Hadoop 版 本 。 最 初 ，Hive 基于 MapReduce 并 由 Facebook 开源 发 布 ， 
它 需要 进行 一 次 非 稼 必要 的 重 构 ， 以 提供 类 似 的 具有 鄞 争 力 的 功能 。 这 就 推动 厂 Stinger 和 
Stinger.next 倡议 的 诞生 。 在 Hive 1.2.1 中 ， 你 既 可 以 选用 MapReduce 进行 批 处 理 ， 也 可 以 选用 
Tez 进行 交互 ， 还 可 以 使 用 Spark 来 实现 内 存 处 理 ， 而 Tez 是 默认 的 执行 引擎 .在 本 曹 和 后 续 曹 
节 中 ， 我 们 将 会 对 Tez 做 更 进一步 的 介绍 。 


3.2 HCatalog 


HCatalog 是 你 :需要 熟悉 的 一 个 关键 组 件 ， 本 书 将 经 常 提 到 它 。 我 们 所 提 到 的 schema-on-read 

概念 与 schema-on-write 相对 应 ， 而 HCatalog 推动 了 schema-on-read。 里 然 HCatalog 通 弟 被 认为 
是 一 个 独立 于 Hive 的 组 件 , 但 是 它 和 Hive 是 不 可 分 割 的 。 当 你 创建 一 个 Hive 表 时 ， 也 将 在 

HCatalog 中 创建 一 个 结构 。HCatalog 促进 了 在 各 种 Hadoop 组 件 之 间 实 现 模式 共享 。HCatalog 发 
挥 了 许多 重要 的 作用 : 

O 为 多 种 工具 提供 一 种 通用 模式 环境 

a 人 允许 各 种 工具 通过 连接 天 来 连接 ， 进 而 从 Hive 仓库 读 取 数据 和 癌 其 写 入 数据 

口 使 用 户 可 以 跨 工 具 共 享 数据 

Q 为 Hadoop 中 的 数据 创建 一 种 关系 结构 
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O 抽象 出 数据 存储 的 方式 和 位 置 
口 使 模式 和 存储 的 更 改 对 用 户 不 可 见 
通过 将 HCatalog 作为 工具 的 模式 元 级 层 ， 意 味 着 当 你 创建 一 个 Hive 表 或 使 用 Pig 时 ， 不必 
关心 数据 存储 在 哪里 ， 也 不 必 关 心 以 什么 样 的 格式 存放 。 此 外 ,你 只 需 创建 表 定 义 一 次 ， 就 可 以 
使 用 Pig 和 Hive 来 访问 它 了 。 
例如 ， 当 你 在 Hive 中 执行 CREATE TABLE 语句 时 ( 对 于 使 用 关系 数据 库 的 人 来 说 ， 这 应 该 很 
OU ): 
CREATE TABLE customers ( 
customerid int, 
firstname string, 


lastname string 


) 
STORED AS orcfile; 


这 条 语句 在 Hive Metastore 中 创建 了 一 个 表 定 义 。 现 在 ， 先 不 必 关 心 STORED AS 子 句 ， 这 将 
在 后 续 革 方 中 讨 论 。 该 表 定 义 还 可 以 包含 有 助 于 提高 性 能 的 分 区 信息 、 描 述 表 的 自由 文本 注释 ， 
以 及 指明 表 为 外 部 表 还 是 内 部 表 的 说 明 。 构 成 表 内 容 的 原始 数据 在 HDFS 中 保持 不 变 , 但 是 
HCatalog 应 用 了 一 个 结构 化 的 元 级 层 来 定义 数据 格式 和 数据 存储 。HCatalog 定义 驻 留 在 HDFS 
之 外 .网 3-2 hs f Hive Metastore 的 数据 库 选 项 。 


fx Acdvanoed 
^ Metastore 
Hive Motaytore hosts sandbox.hortonworks. com 
Hw Cota | Now MYCH. Chata 
Exiating MySOL Database 
Existing Postgres. Database 
Existing Oracle Database 
Database Host sandbox honeonmworks com 
Database Name hve c 
Database Username neve c 
Database Password 
JOBIC Dr Chasis com enyn ie Driver à c 
Database URL. gato rey tic i uu ter cn, cor Mi? ornate Databame Note xut utri e 
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Hive 数据 库 选 项 有 MySQL ( 默认 ), PostgreSQL 和 Oracle。 许 多 组 织 会 选择 像 Oracle ix FÉ 
的 数据 库 作 为 Hive 存储 库 ， 因 为 Oracle 环境 已 经 能 够 提供 安全 性 、 备 份 和 恢复 以 及 高 可 用 性 。 
对 于 开发 环境 而 言 ， 采 用 本 地 Metastore 存储 库 是 比较 合适 的 。 对 于 生产 环境 ， 你 一 定 希 望 你 的 
Hive Metastore 是 安全 且 没 有 故障 的 ， 因 为 其 中 包含 了 你 所 有 的 表 定 义 。 请 记 住 ，Hive 的 文件 存 
(ifft HDFS E, 而 为 这 些 文件 定义 模式 的 元 数据 则 存放 在 于 HDFS 之 外 的 关系 数据 库 中 一 一 既 可 
以 在 男 一 个 服务 右上 ,也 可 以 在 本 地 Linux 文件 系统 的 某 处 。 如 果 你 选用 了 Oracle, 就 需要 Oracle 
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DBA 提供 Oracle JDBC 驱动 程序 ， 并 且 人 允许 你 访问 在 Hive Metastore 设置 中 选择 的 所 有 账户 。 可 
以 通过 网 址 DE qium etc pt un 2.2.1 .0/bk ambari reference guide/ 
content/ using non-default databases - hive.html 获取 参考 文档 , 了 解 如 何 将 Hive ee BITE BRA AK 


注意 不 要 过 于 关心 HCatalog 数据 库 的 大 小 ,有 些 大 型 Hive 实现 也 只 使 用 了 几 TB 的 空间 而 已 
在 某 些 极端 情况 下 ， 用 Hive 管理 的 数据 规模 可 能 达到 数 百 PB。 但 是 在 大 多 数 情况 下 ， 
只 要 分 配 几 GB 的 空间 应 该 就 足够 了 。 


or 


HCatalog 本 质 上 是 数据 访问 工具 (如 Hive 或 Pig ) 与 底层 文件 之 间 的 抽象 层 。 此外，HCatalog 
还 很 容易 将 那些 更 熟悉 基础 设施 作业 方面 的 人 员 与 那些 更 熟悉 业务 和 企业 数据 的 人 员 分 离开 来 
X 3-1 说 明了 这 个 过 程 。 


表 3-1 HCatalog 能 够 帮助 的 角色 


用 户 工作 职能 业务 活动 和 工具 
Q 。 用户 A 负责 常规 集群 管理 工作 。 他 负责 把 数据 迁 ”任意 数量 的 流 或 文件 的 复制 功能 。 这 些 功能 可 能 具有 和 手 
d. 移 到 HDFS， 维护 其 安全 性 ， 并 确保 数据 可 用 工 和 自动 化 的 文件 摄 入 能 力 


用 户 B 负责 清洗 数据 和 创建 HCatalog 中 的 Hive ”她 将 使 用 Hive 创 建 HCatalog 表 ,她 还 可 以 将 Pig 作 为 ETL 


表 。 她 熟知 文件 格式 和 常用 的 Hive 优化 技术 工具 来 清洗 和 修改 数据 ， 并 将 数据 迁移 到 HCatalog 中 
e HP C 在 Hive 或 男 一 个 第 三 方 分 析 应 用 程序 中 查 。” 可 以 使 用 任意 数量 的 第 三 方 工 具 来 访问 HCatalog X 
看 这 些 表 ， 并 使 用 它们 来 分 析 数 据 HCatalog 可 接受 ODBC fil JDBC 连接 


最 终 用 户 并 不 关心 数据 如 何 存 储 、 在 哪里 存储 ， 甚 至 不 关心 数据 具体 是 如 何 模式 化 的 。 用 户 
C 只 关心 是 否 可 用 自己 的 分 析 工 具 来 处 理 数据 ,以 及 数据 是 否 正确 。 用户 A 是 传统 业务 领域 的 专 
WAR, HIP B 是 传统 的 ETL/SQL 开发 人 员 。 我 们 认为 ， 本 书 的 读者 应 该 属于 用 户 B 或 用 户 C 
的 阵营 ,如 果 你 恰好 负责 运 维 集群 和 将 数据 迁移 到 系统 中 的 工作 , 了 解 这 些 内 容 仍然 是 有 价值 的 
在 Hive 背后 要 做 的 大 量 艰 关 工作 就 是 从 来 自 各 种 数据 源 的 多 个 文件 中 获取 数据 ， 并 将 这 些 数 据 
解释 为 某 种 松散 的 结构 或 模式 。 后 面 的 章节 将 讨论 这 其 中 的 许多 选项 , 你 会 发 现 大 部 分 的 数据 整 
理工 作 都 已 经 为 你 完成 了 。 


3.3 HiveServer2 


RIA Hive 为 运行 MapReduce 提供 一 个 SQL 抽象 层 有 很 多 好 处 , 但 是 同样 也 存在 一 些 重 要 限 
制 。 一 个 限制 就 是 客户 端 使 用 标准 ODBC 和 JDBC 连接 到 Metastore 的 能 力 。 在 传统 关系 数据 库 
系统 中 ， 我 们 认为 这 是 理所当然 的 。 开 源 社区 通过 创建 Hive 服务 天 克服 了 这 种 限制 。Hive 服务 
Art P EH ODBC 连接 访问 Metastore。 有 了 Hive ks ak, AF 9m n] LM Excel 这 样 
的 商业 智能 应 用 或 Toad 和 SQuirreL 这 样 的 效率 型 应 用 连接 到 HCatalog . 

Hive 服务 器 仍 然 存在 一 些 限制 ， 主 要 包括 用 户 并 发 性 限制 以 及 与 LDAP 的 安全 性 集成 。 这 
些 组 件 都 是 通过 HiveServer2 的 实现 来 解决 的 。HiveServer2 架构 基于 一 个 Thrift Service 和 任意 数 
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量 由 驱动 程序 、 编 译 器 和 执行 器 组 成 的 会 话 。Metastore 也 是 HiveServer2 的 一 个 重要 组 成 部 分 。 
图 3-3 展示 了 HiveServer2 的 基本 架构 。 


HiveServer2 


Thrift Service 


Metastore 


图 3-3 HiveServer2 的 架构 


HiveServer2 支持 Kerberos、 自 定义 身份 验证 以 及 通过 LDAP 身份 验证 。 所 有 连接 组 件 一 一 


JDBC, ODBC 和 Beeline 一 一 都 可 以 使 用 这 些 身份 验证 方法 中 的 任何 一 种 。 此 外 ，HiveServer2 BE 
可 以 在 HTTP 模式 下 工作 ， 也 可 以 在 TCP ( 二进制 ) 模式 下 工作 。 如 果 你 需要 使 用 HiveServer2 
作为 代理 或 实现 负载 均衡 , 那么 HTTP 模式 就 非常 有 用 。 在 Ambari 中 , 你 可 以 在 Hive service and 
Advanced 配置 选项 下 对 HiveServer2 的 配置 进行 设置 。 图 3-4 展示 了 其 中 一 些 设置 选项 。 如 果 妥 
从 TCP 模式 切换 到 HTTP 模式 ， 需 要 将 hive.server2.transport.mode 的 值 从 binary 更 改 为 http. 


io ,WD Ar E RY. Co Dietr ico 
path 

ibi saroe t Thrift http VOO01 
pon 

FiiveSerwer? Port TOO 
qop 

cue 


图 3-4 HiveServer2 的 设置 
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当 通 过 ODBC 连接 到 Hive 时 ， 你 需要 下 载 适 当 的 ODBC 驱动 程序 。 许 多 公 rl A RI BE 
供 自己 的 ODBC 连接 驱动 程序 。 有 些 ODBC 驱动 程序 可 能 要 比 其 他 一 些 性 能 更 好 。 例 如 ， 通 党 
情况 下 ， 采 用 微软 的 Power BI 连接 Hive 表 时 ， 只 要 下 载 并 配置 Hadoop 分 销 商 的 ODBC 就 足够 
了 。Hortonworks 在 其 网 站 的 附件 区 提供 了 各 种 各 样 的 驱动 程序 。Cloudera 在 其 站 点 上 也 提供 了 
ODBC 和 JDBC 驱动 程序 的 下 载 。 当 你 下 载 了 这 些 驱 动 程序 之 后 , 可 以 通过 标准 的 ODBC 连接 问 
导 来 配置 。 图 3-5 显示 了 Windows 环境 下 ODBC 驱动 程序 的 示例 配置 。 


| v1.3.19.0013 (ea 


—————————————————M 


图 3-5 Windows 环境 下 的 ODBC 连接 示例 


HiveServer2 在 Hive 1.1 中 引入 ， 参 见 HIVE-2935， 这 表明 为 便于 应 用 程序 接 入 Hive WJF T 
一 大 步 。 它 提供 了 更 好 的 并 发 性 、 安 全 性 和 远程 访问 。 在 你 不 断 探索 和 使 用 Hive 全 部 特性 的 过 
程 中 ，HiveServer2 将 是 你 访问 数据 时 不 可 或 缺 的 一 部 分 。 


34 客户 痛 工 具 


在 本 书 中 ， 我们 将 主要 以 两 种 方式 访问 Hive。 第 一 种 方式 是 通过 命令 行 接口 (CLI )。 这 可 
能 是 进入 Hive 最 快 上 且 最 灵活 的 方式 。 它 允许 方便 地 剪 切 和 粘贴 代码 ,执行 HQL 文件 , 并 且 具 有 
更 不 容易 出 错 的 体验 ， 这 种 体验 有 时 会 在 图 形 化 工具 中 展现 出 来 。 如 前 所 述 ，HiveServer2 支持 
ODBC 和 JDBC 连接 ， 因 此 几乎 任何 SQL 工具 都 能 够 连接 到 Hive。 如 果 你 更 熟悉 像 Toad 或 
SQuirreL 这 样 的 工具 ， 也 可 以 自由 使 用 它们 。 

我 们 将 聚焦 于 Hortonworks 沙 箱 的 使 用 。 在 撰写 本 书 之 际 ， 最 新 版 的 沙 箱 是 HDP 2.4。 下 载 
之 后 , 启动 虚拟 机 并 设置 root 密码 , 你 可 以 使 用 任何 SSH 兼容 的 shell 直接 登录 该 环境 ,Windows 
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用 户 有 时 会 使 用 Putty 进行 连接 。 如 果 在 集群 中 有 大 量 节 点 并 且 需 要 在 Putty 连接 中 列 出 它们 , 那 
么 这 就 特别 有 用 。 就 我 们 的 目的 来 说 ， 只 需要 连接 到 在 单个 节点 上 运行 的 沙 箱 。 局 动 CLI 窗 口 并 
键入 下 面 的 代码 ， 就 很 容易 通过 SSH 进行 连接 。 

ssh root@hortonworks.sandbox.com -p 2222 

一 旦 连接 上 ， 你 可 以 在 命令 行 输入 hive HEA Hive CLI。 你 现在 应 该 可 以 看 到 有 一 个 hive> 
提示 符 。 在 CLI 中 的 导航 简单 而 直接 ， 特 别 是 如 果 你 已 习惯 了 其 他 数据 库 系 统 。 请 记 住 ，Hive 
是 基于 MySQL 开发 的 ， 因 此 两 者 的 语法 和 数据 类 型 都 非常 相似 。 在 提示 符 处 输入 : 

show databases; 

现在 输入 : 

show tables; 

确保 用 分 号 结束 所 有 命令 。 要 查看 表 的 列 定 义 ， 输 入 : 

describe <table name> 

例如 ， 要 查看 表 sample 07 的 列 ， 可 输入 : 

describe sample 07; 

执行 HiveQL 命令 与 执行 SQL 命令 类 似 。 要 运行 一 条 简单 的 SELECT 语句 ， 输 入 : 

SELECT * FROM sample 07 LIMIT 10; 

后 续 章 节 还 将 介绍 更 多 的 功能 命令 。 

妨 一 种 比较 有 用 的 通过 命令 行 执行 命令 的 方法 是 借助 浏览 需 shells 打开 浏览 硕 并 输入 sandbox. 
hortonworks.com:4200， 你 可 以 借助 浏览 带 访 问 命令 行 。 一 些 开 发 人 员 发 现 浏览 如 要 比 打 开 为 一 
个 命令 窗口 更 人 简单。 虽然 可 以 在 其 中 完成 复制 和 粘贴 操作 , 但 它 总 是 提示 你 从 浏览 副 对 话 框 中 选 
择 粘贴 操作 。 我 们 发 现在 演示 Hive CLI 时 浏览 器 的 缩放 功能 也 非常 有 用 。 无 论 采 用 哪 种 方式 ， 
当 你 使 用 Hive CLI 时 ， 就 开始 逐步 展现 出 自己 的 个 人 偏好 了 。 

正如 前 一 章 所 展现 的 , 访问 Hive 的 男 一 种 重要 方法 是 通过 Ambari 视图 。Ambari 本 喘 是 一 个 
可 插入 式 框 架 ， 人 允许 开发 人 员 创 建 视 图 ， 这 可 以 通过 Ambari 接口 来 安装 和 执行 。 视 图 是 支持 协 
作 的 强大 工具 , 对 于 为 Ambari 环境 添加 功能 很 有 用 。 第 三 方 供应 商 可 以 创建 Ambari 视图 来 管理 
其 特有 的 应 用 程序 ,而 业务 人 员 也 可 以 创建 自 定 义 视图 在 内 部 使 用 。 视图 的 开发 超出 了 本 书 的 汇 
We, {Any Datel hE https://cwiki.apache.org/confluence/display/AMBARIViews 获取 更 多 信息 。 

在 HDP 2.4 的 开 盒 即 用 程序 中 ，Hive 有 自己 的 Ambari 视图 。 要 查看 该 视图 ， 你 可 以 单 击 井 
字 格 形 的 按钮 ， 并 从 中 选择 Hive View, KI 3-6 展示 了 该 视图 所 在 的 位 置 。 你 将 在 Ambari 视图 的 
右上 和 角 找 到 它 。 

Hive 视图 由 3 个 主要 部 分 组 成 : 工具 栏 Database Explorer 和 Query Editor。 通 过 工具 栏 可 
以 访问 已 保存 查询 、 查 询 历史 、 用 户 定 义 的 图 数 并 且 上 传 表 。 通 过 Database Explorer 可 以 指定 想 
要 用 于 查询 执行 的 数据 库 , 浏览 含有 每 个 数据 库 中 所 有 表 的 列表 。 点 击 数据 库 节 点 将 展开 显示 该 
数据 库 的 内 容 ， 而 点 击 表 节 点 则 会 展开 显示 该 表 的 列 和 数据 类 型 。 这 个 功能 类 似 于 在 Hive CLI 
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中 使 用 的 show database, show tables 以 及 describe tables MA., B— ee 4 SEE BAe 
时 ， 该 视图 将 目 动 对 当前 表 执 行 SELECT # 语 句 ， 返 回 记 录 数 的 限制 为 10。 这 是 一 种 快速 查看 示例 
内 容 的 方法 。 


图 3-6 Ambari Hive 视图 


Query Editor 提供 了 相当 多 的 功能 。 除 了 通过 它 创 建 和 执行 Hive 查询 之 外 ， 你 还 可 以 使 用 它 
基于 每 个 查询 定制 配置 设置 ， 执 行 数据 可 视 化 和 数据 概况 分 析 ， 查 看 Visual Explain 计划 和 Tez 
DAG 执行 ， 以 及 查看 日 志和 错误 消息 。 其 他 功能 还 包括 创建 多 个 工作 表 、 保 存 查询 和 终止 作业 
执行 等 。 图 3-7 显示 了 Hive 视图 。 
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图 3-7 Hive 视图 


与 所 有 Ambari 视图 一 样 ，Hive 视图 是 连接 到 Hadoop AAA PERE. TEIJCHESCUX. 
Ambari 应 在 边缘 节点 上 运行 ,也 就 是 作为 客户 闯 世 点 ,并 且 连 接 到 运行 HDFS 的 核心 Hadoop 集 
群 。 你 也 可 以 选择 设置 单独 的 服务 需 运 行 特定 视图 。 例如 在 某 一 场景 下 ， 你 可 能 有 一 人 台 运 行 操 作 
仪表 板 视图 的 Ambari 服务 右 和 一 台 运 行 Hive HAMAR tt. 当 你 拥有 大 量 运 维 用 户 和 大 量 业 务 
用 户 时 ， 这 样 就 非常 有 用 了 。 另 一 种 供 选 方案 是 采用 单个 Ambari 服务 硕 ， 为 特定 用 户 或 分 组 提 
供 视 图 访问 。 为 此 ， 你 可 以 点 击 用 户 按钮 并 选择 Ambari Manager, [X] 3-8 显示 了 Manage Ambari 
下 拉 选 项 。 
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About 
Manage Ambari 


Settings 
Sign out 


图 3-8 访问 视图 的 配置 


在 此 ， 单 击 屏 镑 左 侧 的 Views 菜单 ， 然 后 选择 Hive View， 如 图 3-9 所 示 


& Clusters Views a 
Bur 
Vew Name Instances 
> CAPACITY-SCHEDULER 100) 
> FILES 1.0.0 (1) 
w HIVE 1.0.0 (Y) 
1 Veer: 
Hive jon 1 0 9 Tro tne (otto m. nate Crew, 


+ Create Instance 


> PIG 1.0.0 (1) 
> SLIDER 2.0.0 (0j 
> TEZ 0.7.0.2.3.4.0-161 (1) 
> ZEPPELIN 1.0.0 (1) 


图 3-9 Hive View 的 配置 
(EAC ES E. 你 可 以 向 用 户 或 分 组 授予 视图 访问 权限 。 根据 你 的 配置 ， 这些 用 户 和 分 组 可 
以 是 本 地 、LDAP 或 Active Directory。 当 你 设置 权限 时 , 用户 将 登录 到 Ambari， 只 看 到 他 们 可 以 
访问 的 视图 ， 所 有 其 他 视图 都 将 被 隐藏 。 图 3-10 显示 了 Hive 视图 的 配置 
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13-10 Hive 视图 的 配置 
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Hive 提供 了 许多 访问 数据 的 方法 。HiveServer2 提供 了 安全 的 远程 访问 以 及 ODBC 和 JDBC 
连接 ，CLI 提供 了 敏捷 开发 和 控制 ，Ambari 视图 提供 了 一 个 简单 的 GUI 界面 以 及 额外 的 操作 功 
能 。 它 们 合 起 来 ， 就 能 够 为 你 查看 和 分 析 数 据 提 供 灵 活性 和 可 伸缩 性 。 


3.5 执行 引擎 : Tez 


在 构想 Hadoop 之 时 ， 只 有 一 个 用 于 处 理 数据 的 执行 引擎 。 这 个 引擎 束 是 MapReduce, ‘Ë ii 
一 种 批 处 理 操作 。 这 意味 着 它 具 备 一 种 处 理 大 量 数据 的 独特 能 力 。 但 是 处 理 这 样 的 数据 是 一 项 艰 
巨 的 任务 ， 不 仅 要 占用 大 部 分 集群 资源 ， 而 且 预 计 也 不 会 很 快 完 成 。MapReduce 是 用 Java 编 与 
的 ， 所 以 要 访问 Hadoop 上 的 数据 ， 你 必须 了 解 Java， 特 别 是 要 知道 如 何 编写 Java MapReduce 代 
码 。 众 所 周知 ，Facebook 通过 创建 一 个 用 于 编写 Java 代码 的 SQL 抽象 层 来 解决 这 个 问题 。 对 于 
访问 Hadoop 而 言 ， 这 是 很 大 一 步 , 但 是 对 于 解决 MapReduce 作为 批 处 理 操 作 所 存在 的 内 在 问题 
并 没有 多 少 帮助 。 用 户 在 Hadoop 上 编写 类 似 于 SQL 的 代码 , 但 是 并 没有 得 到 接近 传统 关系 系统 
性 能 的 体验 。 

一 些 早期 的 Hadoop 分 销 商 通过 创建 数据 访问 架构 解决 了 这 个 问题 ， 这 些 架 构 可 以 访问 
Hadoop 内 部 的 数据 , 也 可 以 处 理 Hadoop 外 部 的 数据 。 一 些 早 期 的 SQL-on-Hadoop 解决 方案 基于 
流行 的 MPP 架构 ， 这 种 解决 方案 利用 并 行 处 理 来 收集 和 执行 数据 。 许 多 此 类 操作 的 目的 是 在 内 
存 中 进行 处 理 以 便 尽快 获得 结果 。 任 何 SQL 执行 引擎 都 试图 尽 可 能 多 地 在 内 存 中 执行 ， 从 而 如 
免 高 代价 的 磁盘 IO 操作 。 早 期 采用 这 种 方法 的 有 Impala 和 HAWQ, 它 们 都 遵循 相同 的 基本 模式 ， 
即 在 集群 中 并 行 执行 SQL 命令 以 最 大 化 分 布 式 处 理 能 力 。 

这 些 早期 的 SQL-on-Hadoop 解决 方案 在 MapReduce 中 克服 了 Hive 表现 出 的 许多 缺陷 ,主要 
体现 在 性 能 和 ANSI SQL 合 规 性 方面 。 早 期 解决 方案 的 问题 在 于 ,它们 无 法 在 较 大 规模 的 数据 集 
上 执行 。 内 存 解决 方案 是 针对 性 能 的 ， 直 到 数据 集 变 得 远 远 超出 内 存 可 以 承受 的 规模 为 止 。 这 是 
因为 一 旦 内 存 容量 占 满 ， 数 据 就 需要 洲 出 到 磁盘 ， 接 着 就 开始 触 碰 到 IO 瓶 贷 了 。 为 一 个 问题 在 
于 它们 不 可 能 成 为 Hive 或 者 不 是 开源 的 。 早 期 的 SQL 解决 方案 是 专 有 的 ， 还 要 包含 额外 成 本 ， 
其 中 大 多 数 的 连接 能 力也 只 限于 已 有 的 Hive Metastore。 早 期 的 Hadoop 用 户 已 经 使 用 了 多 年 的 
Hive， 他 们 并 不 愿意 寻找 新 的 SQL 环境 ,- 而 是 希望 让 Hive 变 得 更 好 。 

开源 社区 决定 填补 这 一 空白 , 这 项 工作 被 称 作 Stinger 倡议 。 该 倡议 旨 在 为 Hive 自 号 提供 交 
HX) SQL-on-Hadoop。 为 了 达到 这 个 目的 就 需要 一 个 新 引擎 。 这 个 新 引擎 就 是 Tez, 


注意 Tez 在 乌 尔 都 语 中 是 “快速 ”的 意思 。 请 记 住 ， 正 如 前 面 提 到 的 ， 开 源 社区 是 由 软件 工程 
师 管 控 和 运作 的 ， 而 不 是 由 市 场 营销 人 员 管 控 的 ， 因 此 大 家 都 欢迎 富有 创意 的 命名 


Tez 成 了 Hive 执行 的 新 模式 。MapReduce 仍然 支持 Hive 执行 ,但 是 Tez 现在 已 经 是 Hadoop 
运行 Hive 作业 的 默认 引擎 。 

相 比 传统 的 MapReduce, Tez 具有 许多 优势 。 首 先 ，Tez toe SHEE IO, Wih Fete r1 
价 高 昂 的 混 洗 过 程 ， 又 采用 了 更 高 效 的 Map 端 连 接 。Tez 还 采用 了 基于 代价 的 优化 希 ， 这 有 助 于 
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牛 成 更 快 的 执行 计划 。 将 Tez 与 针对 SQL 性 能 的 ORC 文件 格式 联合 使 用 ,查询 引擎 的 执行 速度 
将 比 本 机 MapReduce 快 100 倍 。 图 3-11 展示 了 作为 默认 引擎 的 Tez, 而 且 基 于 代价 的 优化 硕 是 软 
兴 启 用 的 。 
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图 3-11 Tez 和 基于 代价 的 优化 需 


第 9 章 将 详细 讨论 Tez 和 性 能 调 优 ,现在 只 需要 知道 目前 很 少 有 SQL 作业 仍然 使 用 MapReduce 
作为 执行 引擎 。 你 可 以 采取 一 些 优 化 性 能 的 措施 来 使 每 个 查询 的 性 能 达到 最 优 。 这 包括 但 不 限于 
使 用 ORC 文件 格式 和 分 区 。 还 要 记 住 ， 当 前 的 Hive 实现 并 不 像 其 他 数据 访问 工具 那样 只 是 一 个 
内 存 中 的 过 程 。 这 是 因为 从 设计 上 来 看 , 一 个 专 有 的 内 存 架 构 会 限制 数据 集 的 大 小 ,数据 规模 要 
适应 内 存 大 小 。Hive 是 SQL-on-Hadoop 的 主力 ， 已 被 证 明 可 以 扩展 到 PB 级 数据 规模 。 

本 章 重 点 介绍 了 Hive 架构 中 的 一 些 关 键 点 。 阅 读本 书 ， 你 将 熟悉 这 些 不 同 的 组 件 ， 了 解 每 
个 组 件 如 何 提供 自己 独特 的 价值 。Hive 的 开发 仍 在 进行 中 ， 而 且 节 奏 很 快 。 本 书 专注 于 Tez, 但 
实际 上 Hive 也 可 以 在 Spark 上 运行 。 同 样 ， 在 市 场 定 位 方面 也 存在 一 定 的 局 限 性 ， 这 些 因素 使 
最 终 选择 变 得 困难 。 我 们 建议 你 目 己 认真 调查 一 下 。 我 们 的 重点 是 Tez， 因 为 Tez 目 始 至 终 就 是 

-个 专门 为 Hive 构建 的 执行 引擎 ， 它 可 以 提供 交互 式 SQL 延迟 处 理 。 开 源 社区 继续 致力 于 实现 
越 来 越 快 的 数据 访问 。 开 源 的 Hive 架构 为 持续 的 开发 和 创新 提供 了 灵活 的 基础 ， 推 动 SQL 分 析 
在 未 来 不 断 扩 展 ， 
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现在 你 已 知道 ，Hive 是 一 种 查询 Hadoop 非 结 构 化 数据 的 方式 ， 而 且 不 需要 编写 复杂 的 
MapReduce 程序 。 它 使 用 户 能 够 利用 SQL 的 表达 能 力 来 编写 简单 的 查询 ， 而 SQL 是 许多 人 者 很 
熟悉 的 语言 。Hive 查询 语言 (如 HiveQL 或 HQL ) 基于 ANSI 标 准 SQL， 因 此 对 于 熟悉 SQL 的 
人 来 说 很 容易 理解 。 用 户 还 可 以 登录 到 Hive 命令 行 界 面 查 询 HDFS 上 的 数据 

Hive 提供 了 标准 的 SQL 功能 ,包括 ANSI 2003 和 ANSI 2011 中 的 许多 SQL 分 析 特 性 。 随 着 
一 个 个 版 本 的 发 布 , Apache 社区 为 HiveQL 添加 了 越 来 越 多 的 特性 , 使 它 越 来 越 接 近 ANSI SQL 
支持 标准 的 SQL 语法 也 扩展 了 Hive 的 可 用 性 ， 使 得 它 很 容易 与 现 有 BI 工具 (如 QlikView., 
MicroStrategy, Microsoft Excel 和 Power BI 等 ) 集成 。 这 种 集成 是 使 用 Hive 的 ODBC/JDBC 驱动 
程序 完成 的 。 

本 章 将 重点 讨论 HiveQL 中 可 用 的 DDL 命令 。 首 先 介绍 Hive 数据 库 和 数据 模型 的 概念 ， 然 
后 重点 介绍 它 所 支持 的 不 同 数据 类 型 。 大 多 数 数据 类 型 与 天 系数 据 库 领 域 的 都 非常 相似 , 不 过 我 
们 也 会 讨论 Hive 直接 从 Java 等 编程 语言 继承 的 数据 类 型 。 

Hive 有 一 些 不 同类 型 的 表 , 可 以 使 你 高 效 地 访问 结构 化 、 半 结构 化 和 非 结构 化 数据 . 我 们 将 
讨论 的 概念 包括 但 不 限于 表 、 列 、 分 区 和 桶 的 创建 、 修 改 和 删除 。 


4.1 schema-on-read 


Hadoop 的 通用 和 强大 体现 在 它 能 够 存储 和 人 处理 任何 类 型 的 结构 化 、 半 结构 化 或 非 结 构 化 数 
Hio Hive 允许 用 户 在 这 些 数据 之 上 创建 一 个 元 数据 层 ， 并 使 用 SQL 接口 访问 该 层 。 尽 管 最 终 用 
户 非常 熟悉 其 界面 ,但 是 它 处 理 底层 数据 的 方式 有 所 不 同 。Hive 并 不 控制 数据 如 何在 磁盘 上 村 
久 化 ， 也 不 控制 数据 的 生命 周期 。 用 户 可 以 首先 在 HDFS 中 以 其 固有 格式 来 存储 任何 类 型 的 数 
ja. 然后 定义 元 数据 ， 而 对 这 些 元 数据 的 读 取 则 独立 于 原始 数据 。 这 种 灵活 性 使 得 Hive 可 以 利 
用 多 种 工具 更 容易 地 进行 数据 的 管理 和 处 理 。 然 而， 由 于 底层 数据 可 以 是 任何 格式 ， 因 此 Hive 
需要 你 在 元 数据 中 提供 一 些 额外 信息 ， 以 便 准 确 解释 所 存储 数据 的 格式 。 你 会 注意 到 ， 在 Hive 
的 大 多 数 CREATE 语句 中 ， 你 都 要 提供 额外 的 信息 ， 比 如 底层 数据 的 结构 、 记 录 的 定义 方式 以 凡 
字段 的 分 隅 方式 。 类 似 地 ， 当 你 在 Hive 中 删除 外 部 表 时 ， 它 只 会 删 际 表 的 元 数据 ， 而 不 会 删 际 
原始 数据 或 包含 数据 的 HDFS 文件 。 在 大 多 数 情 况 下 ， 你 可 以 直接 管理 底层 数据 文件 。 我 想 指 
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出 的 是 ， 用 户 应 该 记 住 ，Hive 不 是 一 个 数据 库 ， 而 是 一 个 友好 且 为 我 们 所 熟悉 的 接口 ， 可 以 查 
询 存 储 在 HDFS 上 的 底层 数据 文件 。 


4.2 Hive 数据 模型 


数据 模型 提供 了 一 种 组 织 数据 元 素 并 将 它们 相互 关联 的 方法 -Hive 的 数据 模型 和 各 种 关系 数 
据 库 非 常 类 似 。 它 由 表 、 列 、 行 和 分 区 组 成 。 这 些 对 象 是 在 名 为 Hive Metastore 的 元 数据 层 中 害 
义 的 逻辑 单元 。 除 了 和 常见 的 数据 段 ，Hive 还 引入 了 一 种 名 叫 “ 桶 ”的 结构 。 实 际 的 数据 文件 和 目 
录 没 有 任何 关于 数据 模型 的 信息 。 逮 辑 单元 由 各 种 数据 类 型 组 成 , 这 些 数据 类 型 将 文件 中 的 实际 
数据 与 模式 中 的 列 关 联 起 来 。Hive 模式 使 Hadoop 数据 看 起 来 具有 人 们 熟悉 的 行 和 列 ， 而 不 管 底 
层 数 据 是 否 以 行 和 列 的 方式 存储 。 这 使 得 通过 ODBC/JDBC 解释 SQL 语言 的 常见 应 用 程序 都 可 
以 访问 数据 。 

Hive 的 元 数据 存储 也 被 称 为 Hive Metastore， 它 由 命名 空间 、 对 象 定义 和 底层 数据 的 详细 内 
容 组 成 。 目 前 ，Hive Metastore 是 在 RDBMS 中 创建 的 ， 因 为 快速 访问 这 些 信息 非常 重要 。 


4.2.4 模式 /数据 库 


与 你 已 经 熟悉 的 RDBMS 领域 的 数据 库 相 比 ，Hive 中 数据 库 的 概念 可 能 略 有 不 同 。Hive Bi 
式 或 数据 库 本 质 上 是 一 个 用 于 保存 一 组 表 的 元 数据 信息 的 命名 空间 。 对 于 Hive 来 说 ， 模 式 和 数 
据 库 是 同义词 。 从 文件 系统 层 来 看 , 模式 就 是 一 个 目录 , 其 中 存储 属于 该 命名 空间 的 所 有 内 部 表 。 
Hive 也 有 外 部 表 的 概念 ， 其 中 文件 可 能 存在 于 HDFS 的 其 他 位 置 。 

Hive 所 管理 的 所 有 数据 都 存储 在 使 用 hive 定义 的 顶层 目录 下 ， 即 hive-site.xml 文件 中 的 
metastore.warehouse.dir 参数 。 该 参数 在 Hortonworks 沙 箱 安装 时 的 默认 值 是 /apps/hive/warehouse。 
管理 员 可 以 将 此 参数 更 改 为 HDFS 上 的 另 一 个 位 置 。 第 一 次 安装 Hive 时 ，Hive 会 创建 一 个 名 为 
default 的 默认 数据 库 ， 它 本 喘 没 有 自己 的 目录 。 在 default 数据 库 中 创建 的 所 有 内 部 表 痢 存放 
在 名 为 hive.metastore.warehouse 的 顶层 目录 下 各 自 的 子 目 录 中 。 然 而 , 所 有 外 部 表 的 数据 都 存 
放 在 HDFS 的 其 他 目录 中 ， 这 些 目录 的 相对 位 置 存 储 在 Hive Metastore 之 中 。 


4.2.2 ”为 什么 使 用 多 个 模式 /数据 库 


在 Hive 增加 数据 库 的 概念 之 前 ， 所 有 用 户 对 象 都 是 在 单个 命名 空间 中 创建 的 。 创 建 多 个 模式 
允许 用 户 在 不 同 的 命名 空间 中 创建 对 象 。 因此 , 它 允 许 对 各 种 对 象 进行 逻辑 分 组 ,你 还 可 以 为 不 同 
的 数据 库 指派 不 同 的 属性 。 例如 , 你 可 以 为 不 同 的 数据 库 设 定 不 同 的 所 有 者 , 还 可 以 为 它们 设置 不 
同 的 存 库 目录 。 从 安全 性 的 角度 来 看 ， 你 可 以 将 命名 空间 中 所 有 对 象 的 权限 授 子 茶 个 角色 /用 户 。 


4.2.3 创建 数据 库 
尔 可 以 使 用 CREATE DATABASE 命令 在 Hive 中 创建 一 个 数据 库 。 该 命令 的 简单 示例 如 下 。 
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, CREATE DATABASE shopping; 


该 命令 将 在 Hive Metastore 中 创建 一 个 名 为 shopping 的 新 命名 空间 。 在 本 例 中 ， 巾 于 我 们 没 
有 在 HDFS 上 指定 该 数据 库 的 位 置 , 它 将 在 hive.metastore.warehouse.dir 中 定义 的 默认 顶层 日 
录 下 创建 一 个 名 为 SHOPPING. db 的 目录 。 

CREATE DATABASE 命令 的 完整 语法 如 下 。 


CREATE (DATABASE | SCHEMA) [ IF NOT EXISTS ] database name 

[ COMMENT database comment ] 

[ LOCATION hdfs path ] 

[ WITH DBPROPERTIES (property name = property value,...) | ; 

下 面 是 一 个 采用 了 完整 语法 的 例子 。 

CREATE DATABASE IF NOT EXISTS shopping 

COMMENT ‘stores all shopping basket data' 

LOCATION '/user/retail/hive/SHOPPING.db' 

WITH DBPROPERTIES ('purpose' = 'testing') ; 

该 命令 将 创建 一 个 名 为 shopping 的 新 命名 空间 ,以 及 一 个 名 为 /user/retail/hive/SHOPPING. 
db 的 目录 。 使 用 WITH DBPROPERTIES 子 句 ， 可 以 将 任何 自 定 义 属 性 指派 给 数据 库 。 你 可 以 使 用 
DESCRIBE DATABASE EXTENDED 命令 来 查看 这 些 属性 ， 如 下 所 示 。 


hive> DESCRIBE DATABASE EXTENDED shopping; 
OK 


shopping stores all shopping basket data 


hdfs://sandbox.hortonworks.com:8020/user/retail/hive/SHOPPING.db root USER 
{purpose=testing} 
Time taken: 0.295 seconds, Fetched: 1 row(s) 


注意 ”要 注意 的 关键 一 点 是 ，CREATE DATABASE 命令 允许 你 指定 将 数据 库 的 数据 存储 在 某 一 特定 
位 置 。Hive 允许 在 非 数 据 库 指定 的 顶层 目录 下 的 其 他 位 置 创建 数据 库 目 录 


4.2.4 更改 数据 库 


一 旦 创建 了 数据 库 ， 就 可 以 使 用 ALTER DATABASE 命令 修改 其 元 数据 属性 ( DBPROPERTIES ) 或 
OWNER 属性 ， 如 下 所 示 。 


ALTER DATABASE shopping 
SET DBPROPERTIES ('department' = 'SALES'); 


4.2.5 ”删除 数据 库 
你 可 以 使 用 DROP DATABASE 命令 来 删除 一 个 Hive 数据 库 ， 格 式 如 下 。 


DROP DATABASE database name [RESTRICT|CASCADE ] ; 


下 面 是 一 个 例 于 。 


DROP DATABASE shopping CASCADE ; 
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在 这 个 命令 中 ，CASCADE 的 使 用 是 可 选 的 ， 这 人 允许 你 删除 数据 库 时 将 已 有 表 一 起 删除 。 该 命 
令 将 删除 属于 shopping 数据 库 的 所 有 内 部 表 和 外 部 表 。 

DROP DATABASE 命令 的 默认 行为 是 RESTRICT， 这 意味 着 如 果 数 据 库 中 有 任何 表 ， 则 执行 该 命 
邻 将 失败 。 


4.2.6 ” 列 出 数据 库 
你 可 以 使 用 下 述 命令 来 查看 Metastore 中 所 有 数据 库 的 列表 。 


SHOW DATABASES [ LIKE ‘identifier with wildcards’ |; 


例如 ，SHOW DATABASES LIKE 'S*' 将 会 列 出 shopping 数据 库 。 


4.3 Hive 中 的 数据 类 型 


Hive 中 的 数据 类 型 可 以 分 为 基本 数据 类 型 和 复杂 数据 类 型 。 这 些 数据 类 型 都 是 用 Java 实现 
的 。 在 深入 了 解 复杂 数据 类 型 的 细节 之 前 ， 让 我 们 先 看 看 Hive 文 持 的 基本 数据 类 型 。 


4.3.1 基本 数据 类 型 


就 像 关 系数 据 库 一 样 ，Hive 中 的 每 个 列 值 都 有 其 数据 类 型 , 也 有 约束 和 有 效 取 值 范围 。 这 些 
数据 类 型 的 行为 类 似 于 它们 在 Java 中 实现 的 底层 数据 类 型 。Hive 中 各 种 基本 数据 类 型 如 下 。 

OQ 数值 型 一 一 存放 正 负 数字 和 浮 点 数 

Q 日 期 /时 间 型 存放 时 间 值 

OQ 字符 型 一 一 将 字符 和 数字 存放 在 字符 串 中 

口 布尔 型 True 或 False 

Q 二 进 制 型 一 一 二 进 制 数 的 可 变 长 数组 

Apache 网 站 上 记录 了 基本 数据 类 型 的 完整 列表 。 如 需 了 解 Hive 中 任何 基本 数据 类 型 的 详细 
内 容 ， 可 以 访问 https://cwiki-apache.org/confluence/display/Hive/LanguageManual+Types. 


4.3.2 选择 数据 类 型 


Hive 有 很 多 基本 数据 类 型 ,因此 在 创建 表 时 使 用 正确 的 数据 类 型 至 关 重 要 。 从 某 种 意义 上 讲 ， 
各 个 数据 类 型 有 所 不 同 ， 其 中 有 一 些 因为 有 固定 长 度 而 较为 严格 ， 例 如 VARCHAR。 在 处 理 关 系数 
据 库 时 ， 使 用 已 定义 长 度 的 数据 类 型 来 确保 数据 的 完整 性 更 为 常见 。 对 于 Hadoop MA, WAH 
要 处 理 各 种 类 型 的 数据 ， 而 且 有 时 你 其 实 并 不 太 了 解 那些 将 被 推送 到 系统 中 的 数据 ， 因 此 采用 
这 种 具有 限制 性 的 数据 类 型 可 能 并 不 总 是 有 效 。 如 果 数 据 类 型 过 于 严格 ，Hive 会 按照 预定 义 列 
的 宽度 将 数据 截断 而 不 做 出 任何 警告 。 因 此 ,建议 在 Hive 中 创建 表 时 不 要 选择 非常 严格 的 数据 
类 型 。 

例如 ， 创 建 一 个 具有 STRING 型 列 的 表 要 比 将 其 创建 为 VARCHAR(25) 具 有 更 好 的 灵活 性 。 
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43.3 复杂 数据 类 型 


除了 已 讨论 的 基本 数据 类 型 之 外 , Hive 还 包含 一 些 关 系数 据 库 中 不 常见 的 数据 类 型 。 这 些 数 
据 类 型 由 多 个 基本 数据 类 型 组 成 ,而 且 使 用 本 地 的 序列 化 锅 和 反 序 列 化 需 在 内 部 实现 。 它们 允许 
你 以 集合 格式 存储 数据 ， 而 不 需要 将 数据 进一步 分 解 为 多 个 单独 的 字段 ,就 像 关 系数 据 库 中 对 规 
范 化 模式 所 做 的 操作 。 但 是 由 于 Hadoop 允许 你 将 任何 类 型 的 数据 存储 到 其 文件 系统 中 并 且 使 用 
schema-on-read 模式 读 取 ， 因 此 传统 的 规范 化 规则 并 不 总 是 适用 于 底层 数据 。 复 杂 数 据 类 型 通常 
又 称 复合 集 Ceollection )， 它 们 对 于 将 实际 数据 映射 到 模式 层 非 常 有用。 

Hive 有 下 述 四 种 复杂 数据 类 型 。 

a 数组 

ü Map 

a zip 

a 联合 体 


1. 数组 

Hive 中 的 数组 是 一 个 由 数据 类 型 相似 的 数据 元 素 构成 的 有 序 复 合集 .这些 元 素 可 用 从 0 开始 
的 顺序 下 标 值 来 表示 。 你 可 以 使 用 方 括 号 和 相应 的 下 标 值 来 访问 这 些 元 素 。 与 Java 这 样 的 编程 
语言 中 的 数组 不 同 ， 你 不 能 在 Hive 数组 中 定义 最 大 元 素数 。 

例如 ， 你 可 以 声明 一 个 ITEMS 数组 来 保存 字符 串 值 ， 如 下 所 示 。 


ITEMS ARRAY«"Bread" , "Butter" , "Organic EggS > 


字符 串 的 复合 集 有 一 个 预定 义 的 排序 〈 或 者 说 顺序 )， 因 此 可 以 通过 从 0 开始 的 索引 来 访问 
这 些 字符 串 。 


ITEMS[O] returns "Bread" 
ITEMS[2] return "Organic Eggs" 


2. Map 

在 Hive tF, Map 是 一 种 无 序 的 键 / 值 对 集合 。Map 中 的 键 可 采用 前 面 讨论 过 的 一 种 基本 数据 
类 型 。 然 而 ，Map 的 值 则 可 以 是 Hive 文 持 的 任何 数据 类 型 ， 包 括 复杂 数据 类 型 。 与 可 以 使 用 下 
标 访 问 元 素 的 数组 不 同 ，Map 数据 类 型 的 元 素 需 要 使 用 键 来 访问 。 

例如 ， 你 可 以 声明 一 个 包含 商品 项 和 数量 的 Basket 集合 ， 如 下 所 示 。 


Basket MAP«'string','int'» 
Basket MAP«"Eggs", '12'» 


通过 在 Map 因数 中 指定 商品 项 ， 可 以 打印 出 该 项 商品 对 应 的 数量 。 


Basket("Eggs") returns 12. 


3. 结构 体 
Hive 结构 体 类 似 于 一 些 编程 语言 中 的 结构 体 ， 例 如 C 语言 。 结 构 体 是 一 个 对 象 ， 其 中 含有 
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多 个 字段 ， 而 这 些 字 段 又 可 以 是 任何 数据 类 型 。 
例如 ， 你 可 以 使 用 下 面 的 STRUCT 定义 来 声明 客户 的 地 址 记录 。 
address STRUCT«houseno:STRING, street:STRING, city:STRING, zipcode:INT, state:STRING, 
country:STRING» 


address <"17","MAIN ST", "SEATTLE", 98104, "WA","USA"» 


你 可 以 使 用 点 号 来 访问 某 一 STRUCT 的 字段 。 在 前 面 的 示例 中 , 可 以 使 用 address.zipcode 来 
访问 各 个 地 址 的 邮政 编码 。 


4. 联合 体 | 

联合 体 提 供 了 一 种 方法 , 可 以 将 不 同 数据 类 型 的 元 系 存 储 在 同一 字段 的 不 同行 中 。 当 字段 的 
上 压 层 数据 不 同 质 的 时 候 ， 这 种 方法 很 有 用 。 

例如 ， 如 末 数 据 文件 中 存放 了 客户 的 联系 信息 , 但 是 每 条 联系 信息 中 包含 一 个 或 多 个 电话 号 
iy, 或 者 包含 一 个 或 多 个 电子 邮件 地 址 , 那么 可 以 声明 一 个 contact 变量 来 按 下 述 方式 存储 信息 。 


contact UNIONTYPE <int, array<int>, string, array<string>> 
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既然 你 已 经 熟悉 了 Hive 领域 的 各 种 数据 类 型 ， 让 我 们 看 看 如 何 使 用 它们 来 读 取 数 据 。Hive 
数据 模型 包含 一 个 关于 数据 的 逻辑 行 / 列 视图 ， 被 称 作 表 。 就 像 关 系数 据 库 一 样 ，Hive 表 由 一 个 
关于 数据 的 二 维 视图 定义 组 成 。 然 而 , 数据 独立 于 表 存 在 。 Hive 表 中 的 数据 存在 于 HDFS 目录 中 ， 
而 表 的 定义 存储 在 一 个 名 为 HCatalog 的 关系 数据 库存 储 中 。Hive 表 和 关系 数据 库 的 表 之 间 存 在 
- 些 重 要 区 别 。 

a Hive 表 中 的 数据 与 表 的 定义 是 松 耦 合 的 。 在 关系 数据 库 中 ， 删 除 一 个 表 时 可 以 从 存储 中 
删除 表 的 定义 和 底层 数据 。 然 而 在 Hive 中 ， 如 果 将 表 定 义 为 外 部 表 ， 那 么 删除 表 定 义 和 
删除 底层 数据 是 相互 独立 的 。 

O Hive 中 的 单个 数据 集 可 以 有 多 个 表 定 义 。 

O Hive 表 中 的 底层 数据 可 以 以 多 种 格式 存储 。 第 7 章 将 讨论 其 中 的 一 些 文件 格式 。 

将 实际 数据 与 模式 分 离开 来 是 Hadoop 超越 关系 系统 的 重要 价值 主张 之 一 。 Hadoop 允许 你 其 

至 在 模式 存在 之 前 加 载 数据 。 一 旦 创建 了 模式 , 你 就 可 以 修改 模式 并 在 几 秒 钟 内 确定 如 何 将 其 映 
叶 到 底层 数据 ,在 关系 数据 库 中 执行 这 样 的 操作 需要 对 表 的 每 一 行进 行 更 改 , 而 且 并 不 那么 简单 。 
Hive 模式 只 是 一 种 元 数据 映射 ， 这 使 得 理解 标准 SQL 的 人 和 应 用 程序 很 容易 查看 底层 数据 。 


4.4.1 创建 表 


你 可 以 使 用 CREATE TABLE 语句 在 Hive 中 创建 表 。Hive 版 本 的 CREATE TABLE 与 标准 SQL JF 
第 相似 。 然 而 ,为 了 管理 大 数据 领域 中 各 种 类 型 的 数据 ， 它 提供 了 各 种 各 样 的 选项 以 增加 功能 
样 性 。 请 记 住 ， 并 非 所 有 使 用 Hive 访问 和 管理 的 数据 都 在 本 地 存储 为 行 和 列 。 在 创建 表 的 过 程 
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中 所 指定 的 配置 定义 了 Hive 应 该 如 何 解释 那些 存储 为 HDFS 数据 文件 的 底层 数据 ，Hive 有 许多 
内 置 的 数据 格式 解释 如 ,用 Hive 术语 来 说 就 是 SerDe。Hive 还 允许 你 :定义 自己 的 序列 化 器 和 反 
序列 化 器 ， 并 搬入 到 CREATE TABLE 语句 中 ,使 Hive 能 够 理解 数据 的 格式 。 第 7 章 将 更 详细 地 讨 
i£ SerDe。 现 在 ， 让 我 们 先 看 一 个 简单 的 CREATE TABLE 语句 。 

CREATE EXTERNAL TABLE customers ( 


fname STRING, 

lname STRING, 

address STRUCT <HOUSENO: STRENG, STREET:STRING, CITY:STRING, ZIPCODE:INT, 
STATE: STRING, COUNTRY: STRING>, 

active BOOLEAN, 

created DATE 


LOCATION '/user/demo/customers'); 


个 CREATE TABLE 示例 使 用 了 前 面 讨 论 的 一 些 数 据 类 型 。 除 非 在 运行 此 命令 之 前 更 改 活动 
med ak default 数据 库 中 创建 一 个 customers 4€. 你 还 可 以 通过 在 表 名 之 前 加 上 “ 数 
据 库 名 ”前 级 的 方式 ， 直 接 在 某 个 数据 库 中 创建 一 个 表 。 示 例如 下 


CREATE EXTERNAL TABLE retail.customers ( 


fname STRING, 

lname STRING, 

address STRUCT «HOUSENO:STRING, STREET:STRING, CITY:STRING, ZIPCODE:INT, 
STATE:STRING, COUNTRY:STRING», 

active BOOLEAN, 

created DATE) 


COMMENT "customer master record table" 
LOCATION '/user/demo/customers/'; 


4.4.2 PWR 
你 可 以 使 用 SHOW TABLES 命令 列 出 现 有 的 表 。 让 我 们 看 一 下 RETAIL 数据 库 中 当前 的 表 清 单 


hive> SHOW TABLES IN retail; 

OK 

customers 

Time taken: 0.465 seconds, Fetched: 1 row(s) 


如 果 数 据 库 中 有 很 多 表 ， 可 以 使 用 通配符 来 搜索 特定 的 表 . 


4.4.3 内 部 表 / 外 部 表 
Hive 表 可 以 创建 为 内 部 或 外 部 的 。Hive 表 的 类 型 决定 了 Hive 如 何 加 载 、 存 储 和 控制 数据 


外 部 表 

通过 在 CREATE TABLE 语句 中 使 用 EXTERNAL 关键 字 可 以 创建 外 部 表 , 这 是 Hadoop 所 有 生产 部 
署 中 推荐 的 表 类 型 。 这 是 因为 在 大 多 数 情况 下 ， 底 层 数 据 将 被 用 于 多 个 用 例 。 即 使 并 非 如 此 , 也 
不 应 该 在 删除 表 定 义 时 删除 底层 数据 。 因 此 ,对 于 外 部 表 来 说 ，Hive 不 会 将 数据 从 文件 系统 中 删 
除 ， 因 为 它 无 法 控制 这 些 数据 。 在 下 列 情况 下 可 使 用 外 部 表 . 
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D 你 想 删 除 表 定义 而 无 须 担 心 删除 底层 数据 。 

a 数据 存储 在 文件 系统 而 不 是 HDFS 之 上 。 例 如 ， 你 可 以 使 用 亚马逊 的 S3 或 者 微软 Azure 
的 WASB 来 存储 数据 ， 并 且 从 多 个 集群 访问 这 些 数 据 。 

a 你 希望 使 用 自 定义 位 置 存储 表 数 据 。 

O 你 不 准备 基于 男 一 个 表 来 创建 表 (CREATE TABLE AS SELECT )。 

a 数据 将 被 多 个 处 理 引 擎 访问 。 例 如， 你 既 希 望 使 用 Hive 来 读 取 表 ， 又 希望 在 Spark 程序 
中 使 用 该 表 。 

a 你 希望 在 同一 数据 集 上 创建 多 个 表 的 定义 。 当 你 有 多 个 表 定 义 时 ， 在 删除 其 中 一 个 定义 
时 不 应 该 删除 底层 数据 ， 此 时 外 部 表 就 很 重要 了 。 


4.4.4 内 部 表 / 受 控 表 


Hive 中 的 内 部 表 是 指数 据 由 Hive 管理 的 表 。 这 意味 着 当 你 删除 一 个 内 部 表 时 ，Hive 也 将 删 
除 它 的 底层 数据 。 这 类 表 在 Hadoop 中 并 不 经 常 使 用 ,因为 在 大 多 数 环境 中 ,即使 是 将 表 删 除了 ， 
文件 系统 中 的 数据 仍然 需要 保留 。 在 Hive 中 ， 由 于 数据 和 元 数据 没有 绑 定 在 一 起 ， 因 此 它 人 允许 
底层 数据 与 其 他 工具 /处 理 范式 一 起 使 用 。 在 下 列 情 况 下 可 使 用 内 部 表 。 

a 数据 是 临时 存储 的 。 

a 访问 数据 的 唯一 方式 是 通过 Hive， 而 且 你 需要 用 Hive 来 完全 管理 表 和 数据 的 生命 周期 。 


注意 ”请 记 住 ， 当 表 为 内 部 / 受 控 型 时 ,你 总 是 可 以 直接 在 HDFS 上 修改 /删除 底层 数据 。 这 是 因 
A Hive 无 法 完全 控制 底层 数据 。 内 部 表 和 外 部 表 对 数据 控制 的 区 别 在 于 如 何 通 过 Hive 
删除 数据 ， 比 如 当 你 删除 表 时 。 


€ 


4.4.5 内 部 表 / 外 部 表示 例 


下 面 通过 一 个 基本 示例 来 说 明 外 部 表 和 内 部 表 之 间 的 区 别 。 
将 一 个 文件 加 载 到 HDFS 并 且 验 证 它 。 


hadoop fs -put /tmp/states.txt /user/demo/states/ 

hadoop fs -ls /user/demo/states 

Found 1 items 

-IW-I--I-- 3 demo hdfs 58 2016-07-02 21:02 /user/demo/states/states.txt 


首先 创建 一 个 内 部 表 来 访问 文件 states.txt 中 的 数据 。 


hive> CREATE TABLE states internal (state string) LOCATION '/user/demo/states'; 
OK 
Time taken: 8.918 seconds 


Hive 将 只 输出 处 理 这 条 命令 所 花费 的 时 间 。 我 们 可 以 看 到 如 下 的 表 定 义 。 


hive> DESCRIBE FORMATTED states internal; 
OK 


56 $43 Hive DDL 


_# col name data type comment 
state string 


# Detailed Table Information 


Database: default 

Owner: demo 

CreateTime: Sat Jul 02 21:05:14 UTC 2016 

LastAccessTime: UNKNOWN 

Protect Mode: None 

Retention: 0 

Location: ^A hdfs://sandbox.hortonworks.com:8020/user/demo/states 
' Table Type: MANAGED TABLE 


Table Parameters: 
COLUMN STATS ACCURATE false 


numFiles 1 

numRows -1 
rawDataSize -1 
totalSize 58 


transient lastDdlTime 1467493514 


# Storage Information 


SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 
InputFormat: org.apache.hadoop.mapred.TextInputFormat 

OutputFormat: org.apache.hadoop.hive.gl.io.HiveIgnoreKeyTextOutputFormat 
Compressed: No 

Num Buckets: -1 

Bucket Columns: [] 

Sort Columns: [] 


Storage Desc Params: 
serialization.format 1 
Time taken: 0.559 seconds, Fetched: 31 row(s) 


从 上 述 输出 ， 你 可 以 看 到 该 表 的 类 型 为 MANAGED TABLE， 还 可 以 看 到 它 的 位 置 。 
你 还 可 以 查询 该 表 中 的 数据 ， 如 下 所 示 。 
hive> SELECT * FROM states internal; 

OK 

california 

ohio 

north dakota 

new york 

colorado 

new jersey 

Time taken: 1.834 seconds, Fetched: 6 row(s) 


你 还 可 以 创建 一 个 内 部 表 而 不 指定 任何 位 置 。 在 这 种 情况 下 ，Hive 将 在 默认 的 Hive 目录 下 
存放 该 表 的 数据 。 
现在 ， 将 另 一 个 文件 添加 到 /userdemoy/states 目录 下 。 


hadoop fs -put /tmp/morestates.txt /user/demo/states/ 


现在 ， 再 次 查询 states internal 表 中 的 数据 。 
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hive» SELECT * FROM states internal; 
OK 

new mexico 

hawaii 

oregon 

south dakota 

california 

ohio 

north dakota 

new york 

colorado 

new jersey 

Time taken: 7.32 seconds, Fetched: 10 row(s) 


正如 你 从 上 述 输出 中 所 看 到 的 , 现在 /user/demo/states 目录 下 的 两 个 文件 都 可 以 查询 到 。 这 是 
因为 我 们 在 创建 表 的 时 候 指 定 该 目录 为 存放 数据 的 位 置 。 
现在 ， 让 我 们 在 同一 数据 集 上 创建 一 个 外 部 表 。 


hive> CREATE EXTERNAL TABLE states external (state string) LOCATION '/user/demo/states' ; 


OK 
Time taken: 2.57 seconds 
来 看 看 该 表 的 模式 。 
hive> DESCRIBE FORMATTED states external; 
OK 
# col name data type comment 
State string 
# Detailed Table Information 
Database: default 
Owner: hdfs 
CreateTime: Sat Jul 02 21:19:31 DIC 2016 
LastAccessTime: UNKNOWN 
Protect Mode: None 
Retention: 0 
Location: hdfs://sandbox.hortonworks.com:8020/user/demo/states 
Table Type: EXTERNAL TABLE 
Table Parameters: 
EXTERNAL TRUE 


transient lastDdlTime 1467494371 


# Storage Information 


SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 
InputFormat: org.apache.hadoop.mapred.TextInputFormat 
OutputFormat: org.apache.hadoop.hive.ql.io.HivelgnoreKeyTextOutputFormat 
Compressed: No 
Num Buckets: -1 
Bucket Columns: [] 
Sort Columns: [] 
Storage Desc Params: 
serialization.format 1 


Time taken: 0.469 seconds, Fetched: 27 row(s) 


来 查看 一 下 该 表 中 的 数据 。 
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, hive> SELECT * FROM states external; 
OK 
new mexico 
hawaii 
oregon 
south dakota 
california 
ohio 
north dakota 
new york 
colorado 
new jersey 
Time taken: 7.363 seconds, Fetched: 10 row(s) 


现在 ， 我 们 在 同一 数据 集 上 就 有 了 两 个 表 。 通 过 这 种 方式 ， 你 可 以 在 同一 数据 集 上 创建 多 
个 表 。 
让 我 们 在 同一 数据 集 上 创建 另 一 个 外 部 表 。 


hive> CREATE EXTERNAL TABLE states external2 (state string) LOCATION '/user/demo/states'; 
OK 
Time taken: 2.548 seconds 


现在 ， 我 们 可 以 使 用 在 本 例 中 创建 的 3 个 表 中 的 任何 一 个 来 查询 同样 的 数据 。 
下 面 看 看 删除 这 些 表 的 时 候 会 发 生 人 什么。 我们 将 删除 第 2 个 外 部 表 。 


hive» DROP TABLE states external2; 
OK 
Time taken: 0.656 seconds 


让 我 们 看 看 是 否 仍然 能 够 使 用 其 他 两 个 表 来 查询 数据 。 


hive> SELECT * FROM states internal; 
OK 

new mexico 

hawaii 

oregon 

south dakota 

california 

ohio 

north dakota 

new york 

colorado 

new jersey 

Time taken: 0.546 seconds, Fetched: 10 row(s) 


hive> SELECT * FROM states external; 
OK 

new mexico 

hawaii 

oregon 

south dakota 

california 

ohio 

north dakota 
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new york 

colorado 

new jersey 

Time taken: 0.557 seconds, Fetched: 10 row(s) 


正如 你 所 看 到 的 ， 删 除 一 个 外 部 表 并 不 会 影响 底层 数据 。 现 在 ， 删 除 内 部 表 。 


hive> DROP TABLE states internal; 
OK 
Time taken: 0.571 seconds 


让 我 们 试看 采用 外 部 表 来 查询 数据 。 
hive> SELECT * FROM states external; 


OK 
Time taken: 0.545 seconds 


因为 Hive 能 够 控制 内 部 表 和 底层 数据 , 所 以 当 我 们 删除 states internal XH, Hive 也 会 删 


除 底层 数据 。 这 就 是 我 们 通过 states external 查询 数据 时 不 会 有 输出 的 原因 。 
4.4.6 RRT 


在 创建 表 或 者 使 用 TBLPROPERTIES 子 句 更 改 表 的 时 候 ， 你 也 可 以 在 表层 级 上 指定 一 些 属 性 。 


Hive 有 一 些 预定 义 的 表 属 性 ， 通 过 这 些 属性 可 以 在 表层 级 上 定义 一 些 配置 ， 以 供 Hive 管理 表 使 


H- 


然而 ， 你 也 可 以 使 用 一 种 键 / 值 对 的 格式 来 定义 一 些 目 定 义 属性 ， 以 便 存 储 一 些 表层 级 的 元 


数据 或 有 关 表 的 额外 信息 。 


下 面 是 Hive 中 一 些 重要 的 表层 级 属性 。 
Q last modified user 

Q last modified time 

Q immutable 

Q orc.compress 

Q skip. header. line.count 


在 该 列表 中 ， 前 两 个 属性 是 可 控 的 , 由 Hive 自动 增加 。 正 如 它们 的 名 称 所 暗示 的 ，Hive 通 


过 它们 将 上 次 修改 的 用 户 和 时 间 信 息 存 放 在 Metastore 中 。 


AT o 


当 immutable 属性 被 设置 为 TRUE 时 , 如 果 一 个 表 中 已 经 含有 一 些 数据 , 则 无 法 再 向 其 插入 新 
如 来 你 试图 将 数据 插入 到 一 个 不 可 更 改 的 表 中 ， 那 么 就 会 出 现下 述 错误 。 


hive> INSERT INTO testi VALUES ('bacon'); 
FAILED: SemanticException [Error 10256]: Inserting into a non-empty immutable table is not 
allowed test1 


orc.compress 属性 用 于 指定 基于 ORC 的 存储 所 采用 的 压缩 算法 。 我 们 将 在 4.4.13 节 中 深入 


讨论 ORC 文件 。 


skip.header.line.count 属性 对 于 Hive 中 的 外 部 表 来 说 是 最 重要 的 属性 之 一 。 在 大 多 数 生产 


环境 中 ,该 属性 者 用 得 非常 频 紧 。 当 处 理 真 实数 据 时 ,你 经 常会 发 现 ， 数据 文件 中 的 标题 行 永远 
部 令 人 头痛 。 使 用 该 属性 ， 你 可 以 跳 过 底层 数据 文件 的 标题 行 。 
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让 我 们 通过 一 个 例子 来 看 如 何 使 用 该 属性 。 
首先 将 一 个 文件 复制 到 HDFS. 


hadoop fs -put /tmp/states3.txt /user/demo/states3 


然后 列 出 该 文件 中 的 数据 。 


hadoop fs -cat /user/demo/states3/states3.txt 
STATE NAME 

california 

ohio 

north dakota 

new york 

colorado 

new jersey 


正如 你 从 上 述 输出 中 看 到 的 ， 该 数据 文件 含有 两 个 标题 行 。 我 们 现在 创建 一 个 带 有 
skip.header.line.count 属性 的 外 部 表 ， 通 过 它 读 取 文件 中 的 数据 而 不 包含 标题 。 


hive> CREATE EXTERNAL TABLE states3 (states string) LOCATION '/user/demo/states3' 
TBLPROPERTIES("skip.header.line.count"-"2"); 

OK 

Time taken: 9.0 seconds 


从 表 中 查询 数据 。 


hive> SELECT * FROM states3; 

OK 

california 

ohio 

north dakota 

new york 

colorado 

new jersey 

Time taken: 0.553 seconds, Fetched: 6 row(s) 


没有 该 属性 ，Hive 就 会 将 前 两 行 标题 解释 为 常规 字符 串 ， 并 且 会 在 SELECT 命令 的 输出 中 显 
示 它 们 。 


4.4.7 ”生成 已 有 表 的 CREATE TABLE 命令 


对 于 给 定 的 表 ， 你 也 可 以 使 用 SHOW CREATE TABLE 命令 来 生成 它 的 CREATE TABLE 语句 。 


hive> SHOW CREATE TABLE states3; 

OK 

CREATE EXTERNAL TABLE 'states3'( 
"states" string) 

ROW FORMAT SERDE 
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 

STORED AS INPUTFORMAT 
'org.apache.hadoop.mapred.TextInputFormat' 

OUTPUTFORMAT 
'org.apache.hadoop.hive.ql.io.HivelgnoreKeyTextOutputFormat' 
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LOCATION 
‘hdfs://sandbox.hortonworks.com:8020/user/demo/states3' 
TBLPROPERTIES ( 
‘COLUMN. STATS ACCURATE '=' false’, 
‘numFiles'='1', 
numRows = -1 ， 
'rawDataSize'-'-1', 
'Skip.header.line.count'-'2', 
'totalSize'-'80', 
'transient lastDdlTime'-'1467497215') 
Time taken: 0.37 seconds, Fetched: 18 row(s) 


4.4.8 ”分 区 和 分 桶 


Hive 表 可 以 进一步 划分 成 大 干 逻辑 块 ， 以 便于 管理 和 改进 性 能 。 在 Hive 中 有 好 几 种 可 用 于 
抽象 数据 的 方式 ， 参 见 图 4-1. 


Hive 数 据 库 


图 4-1 Hive 数据 模型 表示 


分 区 

分 区 在 关系 数据 库 领 域 中 通常 用 于 提高 性 能 和 实现 更 好 的 数据 管理 .Hive 中 分 区 的 概念 并 无 
Fe Hil 

Hive 中 的 分 区 表 有 一 个 或 多 个 分 区 键 , 基于 这 些 键 , BT OP Ma T XE RIF FEE POR 
的 路 径 中 。 每 个 分 区 键 都 为 表 的 存储 添加 了 一 个 目录 层 结构 。 让 我 们 来 看 一 个 含有 一 些 分 区 键 的 
客户 事务 处 理 表 


CREATE EXTERNAL TABLE retail.transactions ( 


Transdate DATE, 
transid INT, 
custid INT, 
fname STRING, 


]name STRING, 
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, item STRING, 
qty INT, 
price FLOAT 
) 


PARTITIONED BY (store STRING); 


本 例 中 的 表 基 于 一 个 名 为 STORE ( 存放 商店 的 名 称 ) 的 字符 串 列 进行 分 区 。 注 意 ， 在 分 区 中 
Se tm mR tbe 在 关系 数 
reti 必须 要 将 实际 CREATE TABLE 结构 中 的 列 或 者 分 区 键 指定 为 表 的 一 列 。 如 采 你 的 数据 已 

经 含有 符合 格式 的 分 区 键 那么 将 其 删除 可 能 并 无 意义 。 你 可 以 给 它 一 个 不 同 的 名 称 并 且 用 一 个 
视图 来 隐藏 它 。 

当 你 查询 一 个 分 区 表 时 , 分 区 的 值 会 作为 该 分 区 中 所 有 行 在 这 一 列 的 值 。 例如 , SELECT * FROM 
retail.transactions 将 返回 STORE 列 的 值 ， 即 使 数据 文件 中 并 没有 存储 这 样 的 数据 。 

创建 分 区 表 需 要 你 预先 为 底层 分 区 创建 目录 结构 。 对 于 内 部 表 的 情形 ， 当 你 使 用 INSERT ái 
令 将 数据 插入 新 分 区 时 ， 分 区 目录 是 自动 创建 的 。 


INSERT INTO transactions int PARTITION (store="new york") values ("01/25/2016",101,"A109","M 
ATTHEW" , "SMITH", "SHOES" ,1,112.9); 

Query ID - hdfs 20160702224145 28638e82-a6cc-4f9f-9c91-86d4a4fadd39 

Total jobs - 1 

Launching Job 1 out of 1 


Status: Running (Executing on YARN cluster with App id application 1467479265950 0010) 


VERTICES STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED 
MER Wi SUCCEEDED 1 1 0 0 0 0 
VERTICES: 01/01 [==========================>>] 100% ELAPSED TIME: 4.28 s 


ee ti gg. 


Loading data to table default.transactions int partition (store=new york) 
Partition default.transactions int{store=new york} stats: [numFiles=1, numRows=1, 
totalSize=38, rawDataSize=37 | 

OK 

Time taken: 11.081 seconds 


hive> SHOW PARTITIONS transactions int; 
OK 
store-new york 


警告 ”如 果 你 试图 在 实际 的 表 定 义 中 加 入 分 区 键 列 ， 将 出 现 FAILED: Error in semantic analysis: 


Column repeated in partitioning columns 错误 。 
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449 ”分 区 注意 事项 


Hive 分 区 对 于 非常 特别 的 查询 子 集 而 言 可 以 改进 其 性 能 ,可 以 对 不 需要 检索 查询 结果 的 分 区 
进行 剪 枝 。 这 个 过 程 叫 作 分 区 消除 。 分 区 也 是 一 种 文 持 用 户 在 HDFS 上 以 更 加 分 片 化 的 方式 组 织 
数据 的 方式 ， 这 样 可 以 改进 可 维护 性 。 如 果 数 据 被 分 割 存放 在 若干 子 目 录 下 , 你 既 可 以 将 各 分 区 
指向 各 子 目 录 , 也 可 以 采用 递归 分 区 使 一 个 表 访 问 所 有 子 目 录 。 如 果 你 的 子 目录 无 法 满足 这 两 个 
选项 中 的 任何 一 个 ， 那 么 就 会 出 现 错误 或 者 对 Hive 表 的 查询 返回 空 数据 集 。 

和 关系 数据 库 一 样 , 如 果 使 用 不 正确 , 分 区 也 会 导致 性 能 下 降 。Hive 分 区 很 重要 的 一 点 是 不 
要 过 度 分 区 。 分 区 会 增加 数据 加 载 和 数据 检索 的 开销 。 如 果 你 创建 了 很 多 分 区 且 每 个 分 区 中 都 含 
有 很 多 小 数据 块 ， 那 么 你 的 文件 就 很 可 能 会 比较 小 。 在 Hadoop 上 存放 大 量 小 文件 要 比 存 放 相 对 
较 少 晶体 量 较 大 的 文件 慢 很 多 。 在 对 Hive 中 的 表 进 行 分 区 时 ， 应 遵循 下 面 这 些 最 佳 实践 。 

口 挑选 一 列 作 为 分 区 键 ， 其 唯一 值 的 个 数 应 在 较 低 值 到 中 间 值 之 间 。 

口 避免 分 区 小 于 1GB ( 越 大 越 好 )。 

a 当 分 区 数量 较 多 时 ， 调 整 HiveServer2 和 Hive Metastore 的 内 存 。 

Q 当 使 用 多 列 作 为 分 区 键 时 ， 对 于 每 一 个 分 区 键 列 的 组 合 都 要 创建 一 个 子 目 录 的 骸 套 树 。 

应 该 避免 深入 舱 套 ， 因 为 这 会 导致 大 多 的 分 区 ， 进 而 使 创建 的 文件 非常 小 。 
Q 当 使 用 Hive 流 处 理 搬 和 人 数据 时 ， 如 果 多 个 会 话 向 相同 的 分 区 写 人 人 数据， 那么 就 会 导致 


锁 闭 。 

a 你 可 以 修改 某 一 分 区 表 的 模式 ， 人 然而， 一旦 结构 发 生 改 变 ， 你 就 无 法 在 已 有 分 区 中 修改 
数据 了 了。 

a 如 果 你 要 将 数据 并 行 插入 到 多 个 分 区 , 应 该 将 hive.optimize.sort.dynamic.partition ix 
Hy True. 


4.4.10 “对 日 期 列 进行 高 效 分 区 ， 


日 期 型 经 常 是 分 区 键 最 常用 的 候选 对 象 。 要 采用 日 期 来 对 数据 进行 分 区 的 用 例 有 很 多 。 最 篆 
见 的 一 个 例子 就 是 , 如 果 你 正在 将 各 种 日 志文 件 加 载 到 HDFS "PJf- Hr 8f HI Hive 来 查询 它们 ， 
那么 你 很 可 能 希望 按 天 来 组 织 数 据 。 当 按照 日 期 来 创建 分 区 时 ， 按照 “YYYY-MM-DD” 格 式 的 
单个 字符 串 进行 分 区 ， 总 是 比 使 用 年 、 月 、 日 各 自 的 值 进行 多 深度 分 区 更 加 高 效 。 使 用 单个 字符 
串 的 优势 在 于 ， 它 允许 使 用 更 多 的 SQL 运算 符 ， 例 如 LIKE, IN 和 BETWEEN, {A AE OR TRO HER 
套 分 区 ， 就 不 太 容 易 使 用 这 些 运算 符 了 。 

假设 我 们 有 表 A， 通 过 DateStamp 字符 串 按照 “YYYY-MM-DD” 格 式 进 行 分 区 。 可 以 使 用 
不 同 的 SQL 运算 符 在 该 表 上 运行 多 种 查询 ， 如 下 所 示 。 

查询 选择 特定 日 期 

SELECT * FROM Table A WHERE DateStamp IN ('2015-01-01', '2015-02-03', '2016-01-01'); 

查询 一 年 中 所 有 的 日 期 


SELECT * FROM TableA WHERE DateStamp LIKE '2015-96'; 
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查询 一 年 中 特定 月 的 所 有 日 期 


SELECT * FROM TableA WHERE DateStamp LIKE '2015-02-96'; 


查询 所 有 以 5 开始 /结束 的 日 子 


SELECT * FROM TableA WHERE DateStamp LIKE '96-96-965'; 


查询 2015 年 1 月 1 日 到 2015 年 3 月 1 日 的 所 有 日 子 


SELECT * FROM TableA WHERE DateStamp BETWEEN '2015-01-01' AND '2015-03-01'; 


分 桶 

Hive 中 的 分 桶 是 男 一 种 将 数据 切 分 为 更 小 片段 的 方式 。 到 目前 为 止 , 我 们 已 经 知道 分 区 如 何 
帮助 我 们 更 高 效 地 组 织 和 访问 数据 。 然 而 ， 高 效 的 分 区 要 求 采 用 分 区 键 ， 且 不 会 导致 出 现 大 量 非 
常 小 的 分 区 。 因 此 ， 如 果 你 的 分 区 键 有 很 多 不 同 的 值 ， 且 分 区 键 的 每 个 值 都 没有 多 少 行 ， 那 么 分 
区 并 不 是 最 佳 选择 。 

分 桶 很 适合 用 于 上 述 情形 , 分 桶 让 你 可 以 为 每 个 表 的 分 桶 列 定义 桶 的 最 大 数目 。Hive 中 的 一 
个 分 区 就 是 一 个 目录 ,分 区 键 的 值 存放 在 实际 的 分 区 目录 名 中 ， 而 分 区 键 是 表 中 的 一 个 虚拟 列 
然而 在 分 桶 中 ,每 个 桶 都 是 一 个 保存 实际 数据 的 文件 ， 这些 数据 基于 一 种 散 列 算法 进行 分 割 。 分 
桶 并 不 会 为 当前 表 添加 一 个 虚拟 列 。 

和 分 区 一 样 , 分 桶 有 其 自身 的 优势 ， 最 主要 的 一 点 就 是 能 够 提升 多 种 查询 的 性 能 。 下 一 方 将 
深入 介绍 其 中 的 一 些 优点 。 如 果 分 桶 所 用 的 键 是 非 倾斜 的 ,那么 你 的 数据 将 会 均衡 分 布 。 这 一 点 
可 以 用 于 实现 高 效 的 数据 抽样 。 

下 面 是 一 个 创建 表 并 且 进 行 分 桶 的 例子 。 我 们 创建 了 一 个 customers 表 , 并 且 将 创建 的 custid 
列 作 为 一 个 分 桶 列 ， 将 其 分 割 成 了 11 个 桶 。 


hive> CREATE EXTERNAL TABLE customers ( 


> custid INT, 

> fname STRING, 

> lname STRING, 

> city STRING, 

> state STRING 

>) 


> CLUSTERED BY (custid) INTO 11 BUCKETS 
> LOCATION '/user/demo/customers' ; 
OK 
Time taken: 1.22 seconds 
现在 , 当 你 向 该 表 中 插入 数据 时 , Hive custid 用 于 散 列 函数 , 将 数据 分 发 到 11 个 桶 当中 . 
对 于 有 些 数据 类 型 来 说 ， 这 就 意味 着 那些 含有 相同 custid 值 的 行将 被 存放 在 相同 的 桶 中 。 


警告 ”要 设置 hive.enforce.bucketing=TRUE。 没 有 这 个 参数 ,你 就 需要 为 表 定 义 与 桶 的 数量 相 
同 的 映射 器 ， 
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4.4.41 分 桶 的 注意 事项 


对 于 高 效 抽样 和 改进 某 些 查询 的 性 能 来 说 , 分 桶 是 一 种 很 好 的 特性 ; 然而 , 它 也 有 目 己 的 一 
些 限制 。 非 对 称 是 真实 数据 最 并 见 的 问题 之 一 ， 如 果 不 能 正确 处 理 ， 会 对 分 桶 造成 很 大 影响 。 为 
分 桶 选择 正确 的 键 也 是 非常 重要 的 。 

下 面 是 在 Hive 中 使 用 分 桶 时 应 该 遵循 的 一 些 最 佳 实践 。 

口 选择 唯一 值 的 个 数 较 多 的 桶 键 。 这 样 会 减 小 出 现 倾斜 的 可 能 性 。 

a 采用 质数 作为 桶 的 编号 。 

O 如 果 桶 键 中 的 数据 是 倾斜 的 ， 为 倾斜 的 值 单独 创建 桶 。 这 可 以 通过 列表 分 桶 来 实现 。 

Q 分 桶 对 于 通常 连接 在 一 起 的 事实 表 来 说 非常 有 用 。 

O 需要 连接 在 一 起 的 表 , 其 桶 的 数目 必须 相同 , 或 者 一 个 表 的 棚 数 是 另 一 个 表 的 桶 数 的 因子 。 

OQ 要 仔细 选择 桶 的 数目 。 一 个 CPU 核 只 会 对 一 个 桶 进行 写 入 操作 ， 因 此 对 于 一 个 大 型 集群 
而 言 ， 如 果 桶 的 数目 很 小 ， 则 集群 的 利用 严重 不 足 。 

D 一 旦 表 建 好 ， 桶 的 数目 就 不 能 改变 了 。 

O 仔细 选择 进行 分 桶 的 列 ， 因 为 散 列 也 数 会 引发 倾斜 。 字 符 串 散 列 更 有 这 种 倾 品 ， 因 为 通 
常 使 用 的 字符 串 子 集 很 小 。 例 如 ， 如 果 桶 键 含有 ABC789、ABC567 和 ABC123 三 个 值 , 但 是 
散 列 算法 在 计算 候选 桶 时 仅仅 用 到 了 前 三 个 字符 (ABC ), 那么 最 后 这 三 个 值 都 会 在 同一 个 
桶 中 。 

口 你 应 该 考虑 到 获取 的 桶 文件 大 小 至 少 是 1GB。 

Q 通过 设置 hive.enforce.bucketing-TRUE 实现 强制 分 桶 。 

O 对 于 Map 端 连 接 ， 分 桶 表 要 比 非 分 桶 表 的 速度 更 快 。 在 Map miekt, Bp seu 7C f 
AIT 知道 右 侧 表 中 相 匹 配 的 行 在 其 对 应 的 桶 中 ， 因 此 只 需要 检索 该 桶 即 可 ， 
这 只 是 右 侧 表 中 存储 的 全 部 数据 中 的 一 小 部 分 。 

Q 分 桶 也 允许 你 按照 一 列 或 多 列 对 每 个 桶 中 的 数据 进行 排序 。 这 样 就 可 以 把 Map miette 

换 成 排序 -合并 连接 ， 使 速度 更 快 。 


临时 表 

到 Hive 0.14 为 止 ，Hive 也 支持 临时 表 。 临 时 表 用 于 在 某 一 会 话 存 续 期 间 保 留 数据 。 这 对 于 
那些 需要 在 处 理 过 程 中 存储 中 间 数 据 并 且 在 处 理 完毕 后 自动 删除 的 应 用 程序 来 说 非常 方便 。 和 内 
部 表 不 同 ， 临 时 表 在 用 户 临时 目录 下 存放 其 数据 。 默 认 情 况 下 ， 临 时 目录 是 /tmp/hive-username。 
不 同 的 用 户 可 以 在 同一 命名 空间 内 创建 同名 的 临时 表 ， 就 像 在 其 私有 的 临时 区 域 中 创建 表 一 样 。 

下 面 是 一 个 创建 临时 表 的 例子 ， 可 以 使 用 DESCRIBE EXTENDED 命令 来 查看 其 属性 。 


hive> CREATE TEMPORARY TABLE states (state STRING); 
OK 

Time taken: 2.378 seconds 

hive> DESCRIBE EXTENDED states; 

OK 

State string 
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‘Detailed Table Information Table(tableName:states, dbName:default, owner:hdfs, 
createTime:1467549942, lastAccessTime:0, retention:0, sd:StorageDescriptor(cols:[Field 
Schema(name:state, type:string, comment:null)], location:hdfs://sandbox.hortonworks. 
com:8020/tmp/hive/hdfs/bf1e3648-d165-47f7-b27e-1e1f488f29f7/ tmp space.db/d494a62e- 
C1a5-4609-a9f6-4a26e656eebb, inputFormat:org.apache.hadoop.mapred.TextInputFormat, 
outputFormat:org.apache.hadoop.hive.ql.io.HivelgnoreKeyTextOutputFormat, compressed:false, 
numBuckets:-1, serdeInfo:SerDeInfo(name:null, serializationLib:org.apache.hadoop.hive. 
serde2.lazy.LazySimpleSerDe, parameters:[serialization.format-1]), bucketCols:[], 
sortCols:[], parameters:{}, skewedInfo:SkewedInfo(skewedColNames:[], skewedColValues:[], 
skewedColValueLocationMaps:{}), storedAsSubDirectories:false), partitionKeys:[], 
parameters:{}, viewOriginalText:null, viewExpandedText:null, tableType:MANAGED TABLE, pri 
vileges:PrincipalPrivilegeSet (userPrivileges: {hdfs=[PrivilegeGrantInfo(privilege: INSERT, 
createTime:-1, grantor:hdfs, grantorType:USER, grantOption:true), PrivilegeGrantInfo(privile 
ge:SELECT, createTime:-1, grantor:hdfs, grantorType:USER, grantOption:true), PrivilegeGrant 
Info(privilege:UPDATE, createTime:-1, grantor:hdfs, grantorType:USER, grantOption:true), 
PrivilegeGrantInfo(privilege:DELETE, createTime:-1, grantor:hdfs, grantorType:USER, 
grantOption:true)]), groupPrivileges:null, rolePrivileges:null), temporary:true) 

Time taken: 0.176 seconds, Fetched: 3 row(s) 
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你 可 以 使 用 ALTER TABLE 命令 来 修改 已 有 的 表 结 构 。 该 命令 和 标准 SQL 中 的 ALTER TABLE fi 
令 相 似 ， 只 是 在 Hive 中 稍 有 不 同 。ALTER TABLE 中 的 所 有 选项 都 支持 你 修改 表 的 结构 ， 但 是 它们 
不 能 修改 数据 。 

让 我 们 看 看 ALTER TABLE 中 的 一 些 选项 。 


1. EMAR 
你 可 以 使 用 ALTER TABLE RENAME 命令 来 重 命名 某 个 表 。 举 个 例子 ， 我 们 将 把 states 表 重 命 
名 为 states old 表 ， 然 后 查看 其 属性 。 


hive> CREATE EXTERNAL TABLE states (state STRING) LOCATION '/user/demo/states' ; 
OK 

Time taken: 1.057 seconds 

hive> ALTER TABLE states RENAME TO states old; 

OK 

Time taken: 1.211 seconds 

hive> DESCRIBE FORMATTED states old; 


OK 
# col name data type comment 
state string 


tt Detailed Table Information 


Database: default 

Owner: hdfs 

CreateTime: Sun Jul 03 13:03:15 UTC 2016 
LastAccessTime: UNKNOWN 

Protect Mode: None 

Retention: 0 


Location: hdfs://sandbox.hortonworks.com:8020/user/demo/states 
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Table Type: EXTERNAL TABLE 
Table Parameters: 
COLUMN STATS ACCURATE false 


EXTERNAL TRUE 

last modified by hdfs 

last modified time 1467551010 
numFiles 5 

numRows -1 
rawDataSize -1 
totalSize 213 


transient lastDdlTime 1467551010 


# Storage Information 


SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 
InputFormat : org.apache.hadoop.mapred.TextInputFormat 

OutputFormat : org.apache.hadoop.hive.ql.io.HivelgnoreKeyTextOutputFormat 
Compressed: No 

Num Buckets: -1 

Bucket Columns: [] 

Sort Columns: [] 


Storage Desc Params: 
serialization.format 1 
Time taken: 0.575 seconds, Fetched: 34 row(s) 


2. 修改 表 的 存储 属性 

你 可 以 使 用 Hive 中 的 ALTER TABLE 命令 修改 表 的 存储 属性 。 然 而 ,更 推荐 的 方法 是 抽取 CREATE 
TABLE 语句 C 或 者 如 果 版 本 控制 中 存放 了 相关 信息 , 也 可 以 取出 来 使 用 )、 删 除 该 表 、 修 改 CREATE 
TABLE 语句 中 的 存储 属性 ， 然 后 重新 创建 表 。 在 大 多 数 生产 环境 下 ， 表 定义 都 是 通过 版 本 控制 来 
维护 的 ， 而 且 通 过 这 种 方式 也 可 以 维护 执行 变更 的 记录 。 
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ORC 文件 格式 用 于 减少 要 从 磁盘 读 取 的 数据 量 。Hive 中 有 很 多 新 的 性 能 优化 都 仅 采 用 ORC 
文件 ， 因 此 对 于 大 多 数 用 例 来 说 ， 推 荐 将 原始 数据 转换 成 ORC 文件 。 第 9 章 将 详细 解释 这 种 格 
式 。 本 市 讨论 一 下 将 基于 文本 文件 的 外 部 表 转 换 成 ORC 文件 应 该 体 循 的 步骤 。 

让 我 们 将 states 表 转 换 成 ORC 格式 并 且 查 看 其 属性 。 


hive> CREATE TABLE states orc STORED AS ORC TBLPROPERTIES("ORC.COMPRESS"="SNAPPY") AS SELECT * 
FROM states; 

Query ID = hdfs 20160703133105 d38ec632-7250-42ac-bb58-23e2ed2028ec 

Total jobs = 1 

Launching Job 1 out of 1 

Tez session was closed. Reopening... 

Session re-established. 


Status: Running {Executing on YARN cluster with App id application 1467537169806 0004) 


VERTICES STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED 
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nn 


Moving data to: hdfs://sandbox.hortonworks.com:8020/apps/hive/warehouse/states orc 
Table default.states orc stats: [numFiles-1, numRows-22, totalSize=364, rawDataSize-2024] 
OK 


Time taken: 14.461 seconds 

hive» DESCRIBE EXTENDED states orc; 
OK l 

State string 


Detailed Table Information Table(tableName:states_orc, dbName:default, owner:hdfs, 
createTime:1467552677, lastAccessTime:0, retention:0, sd:StorageDescriptor(cols:[Fiel 
dSchema(name:state, type:string, comment:null)], location:hdfs://sandbox.hortonworks. 
com:8020/apps/hive/warehouse/states orc, inputFormat:org.apache.hadoop.hive.ql.io. 
orc.OrcInputFormat, outputFormat:org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat, 
compressed:false, numBuckets:-1, serdeInfo:SerDeInfo(name:null, serializationLib:org. 
apache.hadoop.hive.ql.io.orc.OrcSerde, parameters:{serialization.format=1}), bucketCols:[], 
sortCols:[], parameters:{}, skewedInfo:SkewedInfo(skewedColNames:[], skewedColValues:[], 
skewedColValueLocationMaps:{}), storedAsSubDirectories:false), partitionKeys:[], 
parameters:(numFiles-1, ORC.COMPRESS=SNAPPY, transient lastDdlTime-1467552677, COLUMN _ 
STATS ACCURATE-true, totalSize-364, numRows-22, rawDataSize=2024}, viewOriginalText:null, 
viewExpandedText:null, tableType:MANAGED TABLE) 

Time taken: 0.574 seconds, Fetched: 3 row(s) 


合并 表 的 文件 

在 Hadoop 中 处 理 小 文件 是 永恒 的 挑战 ， 因 为 它们 需要 耗费 大 量 的 NameNode 元 数据 记录 。 
将 小 文件 组 合成 较 大 的 文件 经 常 是 一 种 推荐 做 法 。 如 果 你 有 一 个 ORC 文件 格式 的 表 ， 其 中 含有 
很 多 小 文件 ， 你 可 以 将 它们 合并 以 充分 利用 NameNode 中 的 HDFS 元 数据 空间 。 可 以 使 用 ALTER 
TABLE 命令 来 实现 。HDFS 的 NameNode 进程 维护 了 HDFS 上 所 有 文件 的 元 数据 。 

对 于 以 RCFile 或 ORCFile 格式 存储 的 Hive 表 ， 可 以 做 如 下 操作 。 


ALTER TABLE states CONCATENATE ; 


该 命令 会 将 多 个 数据 文件 合并 成 较 大 的 文件 。 

避免 小 文件 的 最 佳 方式 是 ， 在 数据 进入 Hadoop 之 前 ， 将 它们 合并 成 集群 数据 块 数 倍 大 小 的 
文件 ， 通常 为 好 几 GB 或 者 更 大 。 在 数据 进入 Hadoop 之 后 ， 有 很 多 种 方式 可 以 将 它们 整合 到 一 
起 ,但 是 由 于 Hadoop 在 处 理 大 量 小 文件 方面 并 不 在 行 ， 因 此 这 文 样 合并 的 过 程 速 度 会 比较 慢 。 


4.4.14 更改 表 分 区 


到 目前 为 止 ， 我 们 已 经 了 解 了 如 何 使 用 ALTER TABLE 命令 修改 某 些 表 属性 。 你 也 可 以 使 用 该 
命令 的 一 些 附 加 选项 来 修改 表 分 区 。 
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1. 添加 分 区 
你 可 以 使 用 ALTER TABLE ADD PARTITION 命令 来 为 已 有 表 添 加 新 分 区 。 因 为 新 数据 被 加 载 到 
HDFS 时 会 进入 已 有 外 部 分 区 表 的 子 目 录 下 ， 所 以 你 需要 运行 该 命令 来 插入 新 分 区 。 该 命令 允许 
尔 基 于 已 有 的 分 区 键 来 为 一 个 已 有 表 添 加 一 个 或 多 个 分 区 。 
让 我 们 看 一 个 为 已 有 表 添 加 新 分 区 的 例子 。 我 们 首先 为 外 部 表 创 建 一 个 目录 , 并且 在 HDFS 
上 创建 两 个 分 区 。 


hadoop fs -mkdir /user/demo/ids 
hadoop fs -mkdir /user/demo/ids/2016-05-31 
hadoop fs -mkdir /user/demo/ids/2016-05-30 


将 数据 复制 到 这 些 目 录 下 。 


hadoop fs -put /tmp/2016-05-31.txt /user/demo/ids/2016-05-31/ 
hadoop fs -put /tmp/2016-05-30.txt /user/demo/ids/2016-05-30/ 


创建 外 部 表 并 且 为 其 添加 分 区 。 


hive> CREATE EXTERNAL TABLE ids (a INT) PARTITIONED BY (datestamp STRING) LOCATION '/user/ 


demo/ids' ; 

OK 

Time taken: 1.009 seconds 
为 表 添 加 分 区 。 


ALTER TABLE ids ADD PARTITION (datestamp='2016-05-30') location '/user/demo/ids/2016-05-30' ; 
hive> SELECT * FROM ids; 


OK 

11 2016-05-30 
12 2016-05-30 
13 2016-05-30 
14 2016-05-30 
15 2016-05-30 
16 2016-05-30 


Time taken: 1.011 seconds, Fetched: 6 row(s) 


同样 ， 我 们 可 以 为 该 表 添 加 其 他 分 区 。 


hive» ALTER TABLE ids ADD PARTITION (datestamp-'2016-05-31') location '/user/demo/ids/2016- 
05-31"; 

OK 

Time taken: 0.438 seconds 

hive» SELECT * FROM ids; 


OK 

11 2016-05-30 
12 2016-05-30 
13 2016-05-30 
14 2016-05-30 
15 2016-05-30 
16 2016-05-30 
1 2016-05-31 
2 2016-05-31 
3 2016-05-31 
4 2016-05-31 
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nis 2016-05-31 
6 2016-05-31 
Time taken: 0.649 seconds, Fetched: 12 row(s) 


对 于 内 部 表 ， 可 以 使 用 MSCK REPAIR TABLE 命令 来 添加 新 分 区 。 
让 我 们 看 一 个 这 样 的 例子 。 首 先 创建 一 个 名 为 ids internal 的 内 部 分 区 表 。 


hive> CREATE TABLE ids internal (a INT) PARTITIONED BY (datestamp STRING); 
OK 
Time taken: 2.422 seconds 


为 两 个 不 同 的 分 区 插入 几 行 数据 。 


hive> INSERT INTO ids internal PARTITION (datestamp='2016-05-30') values (1); 
Query ID = hdfs 20160703164138 82dfaa1f-e746-4c68-b694-0bb639af2961 

Total jobs = 1 

Launching Job 1 out of 1 


Status: Running (Executing on YARN cluster with App id application 1467537169806 0011) 


一 一 一 


VERTICES STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED 
Map silts sya nurs SUCCEEDED 1 1 0 0 0 0 
VERTICES: 01/01 [ssememe—————---5»] 100% ELAPSED TIME: 4.70 s 


Loading data to table default.ids internal partition (datestamp-2016-05-30) 
Partition default.ids internal{datestamp=2016-05-30} stats: [numFiles-1, numRows-1, 
totalSize-2, rawDataSize-1] 

OK 

Time taken: 11.108 seconds 

hive» INSERT INTO ids internal PARTITION (datestamp-'2016-05-31') values (11); 
Query ID = hdfs 20160703164158 8a2cb0c5-60ef-4212-832b-6cc933d31adf 

Total jobs - 1 

Launching Job 1 out of 1 


Status: Running (Executing on YARN cluster with App id application 1467537169806 0011) 


LI spl eren 


VERTICES STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED 
Mio ose oq SUCCEEDED 1 1 0 0 0 0 
VERTICES: 01/01 [==========================?y] 100% ELAPSED TIME: 0.20 5 


Loading data to table default.ids internal partition (datestamp=2016-05-31) 
Partition default.ids internal{datestamp=2016-05-31} stats: [numFiles-1, numRows-1, 
totalSize-3, rawDataSize-2] 

OK 

Time taken: 5.683 seconds 

hive» SHOW PARTITIONS ids internal; 
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OK 

datestamp=2016-05-30 

datestamp=2016-05-31 

Time taken: 3.684 seconds, Fetched: 2 row(s) 


我 们 将 在 该 表 的 目录 下 创建 一 个 新 的 子 目录 并 且 为 其 添加 一 个 文件 。 


hadoop fs -mkdir /apps/hive/warehouse/ids internal/datestamp=2016-05-21 
hadoop fs -put /tmp/2016-05-21.txt /apps/hive/warehouse/ids internal/datestamp=2016-05-21 


现在 可 以 运行 MSCK REPAIR TABLE 命令 来 为 该 表 添加 新 分 区 。 


hive> MSCK REPAIR TABLE ids internal; 

OK ; 
Partitions not in metastore: ids internal:datestamp-2016-05-21 
Repair: Added partition to metastore ids internal:datestamp-2016-05-21 
Time taken: 1.821 seconds, Fetched: 2 row(s) 

hive» SHOW PARTITIONS ids internal; 

OK 

datestamp-2016-05-21 

datestamp-2016-05-30 

datestamp-2016-05-31 

Time taken: 5.869 seconds, Fetched: 3 row(s) 


MSCK REPAIR 命令 为 ids internal Xf fr/apps/hive/warehouse/ids internal FAAS, MH. 
因为 它 找 到 了 一 个 名 为 datestamp-2016-05-21 的 新 子 目 录 ， laira 目录 作为 一 个 新 分 区 
添加 到 ids internal 表 。 当 你 添加 了 很 多 新 的 分 区 目录 ， 并 且 想 要 一 次 性 全 部 更 新 它们 的 表 有 是 
义 时 ， 这 种 方式 尤其 有 用 。 注 意 ， 这 种 方式 仅 对 内 部 表 有 效 。 


2. 重 命名 分 区 
你 甚至 可 以 使 用 ALTER TABLE 命令 来 对 表 的 分 区 进行 重 命 名 。 让 我 们 对 上 例 创 建 的 分 区 重 
全 名 


hive> ALTER TABLE ids PARTITION (datestamp='2016-05-31') RENAME to PARTITION 
(datestamp='31-05-2016'); i 

OK 

Time taken: 1.155 seconds 

hive> SHOW PARTITIONS ids; 

OK 

datestamp=2016-05-30 

datestamp=31-05-2016 

Time taken: 0.679 seconds, Fetched: 2 row(s) 


在 本 例 rH. ALTER TABLE 命令 仅仅 更 新 Hive Metastore 中 的 分 区 名 称 。 
该 命令 只 能 用 于 修改 外 部 表 的 分 区 。 如 果 你 想 对 内 部 表 的 分 区 重 命 名 ， 就 会 出 现下 述 错误 。 


FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Unable 
to rename partition. table new location hdfs://sandbox.hortonworks.com:8020/apps/hive/ 
warehouse/retail.db/transactions/store-oakdrive is on a different file system than the old 
location hdfs://Sandbox.hortonworks.com:8020/apps/hive/warehouse/retail.db/transactions/ 
store-oakwood. This operation is not supported 
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4415 ”修改 列 
你 还 可 以 使 用 ALTER TABLE 命令 来 修改 各 列 。 让 我 们 看 几 个 操作 。 


添加 列 

随 着 大 数据 环境 中 的 数据 不 断 增长 ， 对 于 schema-on-read 架构 产生 的 一 个 关键 需求 就 是 要 能 
够 修改 模式 或 表 的 元 数据 。 这 种 灵活 性 使 用 户 可 以 在 表 之 上 定义 各 种 类 型 的 元 数据 ,而 且 修 改 这 
些 元 数据 时 不 需要 担心 修改 底层 的 数据 ( 只 对 外 部 表 )。 你 可 以 使 用 ALTER TABLE 命令 更 改 一 个 
表 ， 为 其 添加 新 列 。 


hive> ALTER TABLE RETAIL.TRANSACTIONS ADD COLUMNS (loyalty card boolean); 
OK 
Time taken: 0.278 seconds 


新 列 将 被 添加 到 当前 列 之 后 、 分 区 列 之 前 。 分 区 列 的 值 来 自 于 分 区 定义 , 并 不 是 存放 在 数据 
文件 本 身 之 中 ， 也 不 在 CREATE TABLE 命令 中 列 的 列表 之 中 。 虽 然 实际 上 分 区 列 并 没有 人 能 入 到 数 
据 本 身 之 中 ,但 是 当 你 执行 SELECT # 语 名 的 时 候 ， 分 区 列 总 是 会 出 现在 列 的 列表 的 最 后 。 

也 可 以 使 用 ALTER TABLE REPLACE COLUMNS 命令 来 替换 表 中 列 的 整个 列表 。 然 而 ， 在 这 种 情 
况 下 ， 最 好 是 删除 并 重建 该 表 ， 因 为 这 样 你 可 以 在 源码 控制 中 存放 新 的 定义 。 


4.4.16 ”删除 表 / 分 区 


1. 删除 表 

可 以 使 用 DROP TABLE 命令 删除 Hive 中 的 表 。 运 行 DROP TABLE 命令 时 ， 表 的 元 数据 总 会 被 删 
ER. ZAM, Hive 仅仅 删除 受 控 表 中 的 数据 。 如 果 你 已 经 使 HDFS 的 trash 特性 可 用 ， 该 表 的 数据 
文件 就 会 被 移动 到 /user/$SUSER/.trash 文件 夹 下 。 可 以 通过 在 /etc/hadoop/conf/core-site.xml 中 设置 
fs.trash.interval 参数 来 使 该 特性 可 用 。 


DROP TABLE <TABLE NAME>; 


如 果 你 还 想 从 trash 中 删除 它 ， 那 么 可 以 加 入 PURGE 关键 字 ， 如 下 所 示 。 


DROP TABLE <TABLE NAME> PURGE; 


2. 删除 分 区 

还 可 以 使 用 ALTER TABLE DROP PARTITION 命令 删除 Hive 中 的 分 区 。 该 命令 从 Hive Metastore 
中 删除 分 区 元 数据 。 就 像 DROP TABLE 命令 一 样 ， 只 有 当 表 是 受 控 表 时 ，Hive 才能 删除 真实 的 分 
区 数据 。 下 面 给 出 一 个 删除 分 区 的 例子 。 


hive> ALTER TABLE transactions DROP PARTITION (store-'oakdrive'); 
Dropped the partition store-oakdrive 

OK 

Time taken: 1.105 seconds 


在 本 例 中 ， 数 据 仍然 存放 在 HDFS 上 (假设 你 使 用 了 一 个 外 部 表 )， 但 是 针对 该 事务 处 理 表 
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的 查询 无 法 再 读 取 该 分 区 。 因 此 , 查询 结果 集中 没有 含有 store-oakdrive Wit, 因为 这 个 表 中 已 


4.4.17 ”保护 表 / 分 区 


你 可 以 使 用 ALTER TABLE ENABLE NO DROP 命令 来 防止 用 户 删 除 Hive 中 的 表 。 在 生产 环境 
用 户 通常 并 没有 删除 表 的 特权 。 然而 ， 当 用 户 需 要 这 样 的 特权 ， rehash td 
这 一 命令 就 很 有 用 了 。 
下 面 的 例子 展示 了 如 何在 Hive 中 更 改 一 个 表 ， 以 避免 它 被 删除 。 


hive» ALTER TABLE transactions ENABLE NO DROP; 
OK 


Time taken: 0.239 seconds 
hive» DROP TABLE transactions; "n 
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Table 
transactions is protected from being dropped 
你 其 至 可 以 使 某 个 表 处 于 离线 状态 , 以 防止 该 表 的 数据 被 用 户 查 询 到 。 这 并 不 会 对 为 一 个 访 
问 同一 底层 数据 的 表 造 成 影响 。 


hive> ALTER TABLE transactions ENABLE OFFLINE; 

OK 

Time taken: 0.285 seconds 

hive> SELECT * FROM TRANSACTIONS; 

FAILED: SemanticException [Error 10113]: Query against an offline table or partition Table 
TRANSACTIONS 


你 可 以 运行 这 两 个 分 区 层 命 令 ， 按 照 如 下 方式 指定 分 区 名 称 。 


ALTER TABLE <TABLE NAME> PARTITION <PARTITION SPEC> ENABLE OFFLINE; 


44.18 其 他 CREATE TABLE 命令 选项 


1. CTAS 命令 
你 还 可 以 使 用 CREATE TABLE AS SELECT ( CTAS ) 命令 ， 利用 其 结果 集 和 查询 输出 模式 来 创 
建 一 个 内 部 表 。 7 


hive> CREATE TABLE retail.transactions top100 AS SELECT * FROM retail.transactions WHERE 
custid<101; 


你 可 以 使 用 这 一 特性 来 抽取 某 个 表 的 子 集 ， 并 且 以 另 一 种 格式 将 该 子 集 存 放 在 一 个 新 表 中 。 
下 面 给 出 另 一 个 例子 ， 它 为 目标 表 指 定 了 一 种 新 格式 。 
hive» CREATE TABLE retail.transactions _top100 STORED AS ORCFILE 
AS 
SELECT * FROM retail.transactions WHERE custid<101; 
在 CTAS 命令 中 ,Hive 对 目标 表 的 格式 有 一 些 限 制 。 新 的 目标 表 不 能 是 外 部 表 、 分 区 表 或 分 
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2. CREATE TABLE LIKE 命令 | 
如 果 想 复制 某 个 已 有 表 的 模式 而 不 复制 它 的 数据 ， 可 以 使 用 CREATE TABLE LIKE 命令 。 


hive> CREATE TABLE transactions test LIKE transactions; 
OK 


Time taken: 0.291 seconds 


效 据 操作 语言 


Hive 数据 操作 语言 ( DML ) 是 Hive 生态 系统 中 所 有 数据 处 理 的 基础 。 
SB HERU F o 

O 了 解 Hive DML 的 基本 组 成 模块 

口 了 解 重要 可 选 设置 的 影响 

OC) 组 合 基 本 组 成 模块 来 实现 数据 处 理 


注意 ”为 了 获得 最 佳 学 习 体 验 ， 你 应 该 按照 既定 顺序 完成 本 章 的 示例 ， 因 为 后 面 的 示例 通常 会 de 
用 到 前 面 示例 中 的 数据 结构 。 与 本 书 的 其 他 各 章 相 比 ， 本 章 的 编排 更 为 精心 ， 这 是 为 了 
解释 每 个 DML 主题 所 涉及 的 语法 。 


5.1 RR LE Ze 


处 理 数 据 并 形成 信息 需要 对 数据 进行 呈现 。Hive 环境 可 以 接受 任何 可 用 分 隔 符 来 结构 化 的 
数据 。 

使 用 以 下 DML 处 理 可 以 将 数据 装载 到 平台 中 。 

要 将 数据 装载 到 平台 ， 你 需要 两 个 组 件 。 

a 待 装载 数据 的 来 源 ( 源 ) 

D 用 于 装载 数据 的 表 ( 目标 ) 
注意 在 将 数据 装载 到 表 中 时 并 没有 进行 转换 操作 ， 因 为 Hive 对 于 系统 准备 使 用 的 数据 仅 执行 

迁移 /复制 操作 。 


5.1.1 使 用 存储 在 HDFS 中 的 文件 装载 数据 


Hive 支持 从 Hadoop 分 布 式 文件 系统 (HDFS ) 上 传 文件 。 这 是 将 数据 迁移 到 Hive 生态 系统 
最 基本 的 方法 。 
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‘Hive 语法 如 下 o 
LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename 
语法 解释 如 下 。 
LOAD DATA [a] Hive 装载 数据 的 关键 字 
LOCAL 如 果 包 含 该 关键 字 ， 则 支持 用 户 从 其 本 地 文件 装载 数据 
如 果 省 略 该 关键 字 ， 则 从 Hadoop 配置 变量 fs.default.name 中 设 定 的 路 径 加 载 文件 
INPATH 'filepath' 如 果 使 用 LOCAL: file:///user/hive/example 
如 果 省 略 LOCAL: hdfs://namenode:9000/user/hive/example 
OVERWRITE 如 果 包 含 ， 支 持 用 户 将 数据 装载 到 一 个 早已 建 好 的 表 中 并 且 替 换 原 来 的 数据 


如 果 省 略 ， 支 持 用 户 将 数据 装载 到 一 个 早已 建 好 的 表 中 并 且 将 新 数据 追加 到 原来 的 数据 后 面 
INTO TABLE tablename ”tablename 是 Hive 中 已 经 存在 的 表 的 名 称 
使 用 CREATE TABLE tablename 语句 


使 用 Hive 上 传 数 据 文件 
下 面 的 Hive 命令 允许 你 将 名 为 Person001.csv 的 数据 文件 上 传 到 census.person 表 中 。 


注意 ”该 数据 集 可 以 从 图 灵 社 区 下 载 : http://www.ituring.com.cn/book/1963。 


就 本 章 而 言 ， 你 需要 使 用 : 

$HIVE HOME/bin/hive 

本 例 用 到 了 名 为 Script PersonTable.txt 的 示例 脚本 。 
要 用 到 的 Hive 脚本 如 下 。 


HH 创建 一 个 新 数据 库 
CREATE DATABASE census; 


HH 使 用 该 数据 库 

USE census; 

Ht 创建 一 个 新 表 

CREATE TABLE person ( 
persid int, 
lastname string, 
firstname string 


) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 


HH 将 数据 从 CSV 文件 装载 到 该 新 表 
LOAD DATA LOCAL INPATH 'file:///root/hive/example/personOO1' OVERWRITE INTO TABLE person; 


tt 查看 表 中 是 否 有 数据 
SELECT persid, lastname, firstname 
FROM person; 
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如 果 你 在 Hive 命令 行 中 使 用 上 述 脚本 ， 将 会 出 现下 述 情形 。 


hive> CREATE DATABASE census; 
OK 
Time taken: 1.486 seconds 


hive> USE census; 
OK 
Time taken: 0.66 seconds 


hive> CREATE TABLE person ( 


>  persid int, 

> lastname string, 

> firstname string 

>) 

>ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 


OK 
Time taken: 3.28 seconds 


hive> LOAD DATA LOCAL INPATH 'file:///root/hive/example/personoo1' OVERWRITE INTO TABLE 
person; 


Loading data to census.person 
Table census.person stats: (numFiles-1, numRows=0, totalSize=1265, rawDataSize=0) 


OK 
Time taken: 4.393 seconds 


测试 一 下 是 否 所 有 的 数据 都 已 经 装载 ， 结 果 应 该 是 80 条 记录 ( 这 里 仅 显 示 前 10 条 记录 ). 


hive> SELECT persid, lastname, firstname FROM person; 


OK 

2 SMITH AARON 

3 SMITH ABDUL 

4 SMITH ABE 

5 SMITH ABEL 

6 SMITH ABRAHAM 
7 SMITH ABRAM 

8 SMITH ADALBERTO 
9 SMITH ADAM 

10 SMITH ADAN 

11 JOHNSON AARON 


Time taken: 4.241 seconds, Fetched: 80 record(s) 


5.1.2 ”使 用 查询 装载 数据 


Hive 文 持 将 从 已 有 表 查 询 到 的 数据 装载 到 Hive 生态 系统 中 。 
Hive 语法 如 下 。 
INSERT [OVERWRITE] 


TABLE tablename [IF NOT EXISTS] 
SELECT select fields FROM from statement; 
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INSERT 用 于 将 数据 装载 到 Hive 表 中 的 关键 字 | 
OVERWRITE 如 果 包 含 ， 支 持 用 户 将 数据 装载 到 已 经 建 好 的 表 中 ， 并且 蔡 换 之 前 的 数据 
如 果 省 略 ， 支 持 用 户 将 数据 装载 到 已 经 建 好 的 表 中 ， 并 且 将 新 数据 追加 到 以 前 的 数据 之 后 
TABLE tablename tablename 是 Hive 中 已 有 的 表 名 。 使 用 CREATE TABLE tablename 语句 
IF NOT EXISTS 如 果 在 命令 中 包含 了 IF NOT EXISTS, 那么 Hive 命令 将 在 当前 数据 库 中 创建 一 个 表 
如 果 省 略 ， 当 该 表 不 存在 时 将 执行 失败 


SELECT 这 可 以 是 针对 Hive 生态 系统 的 任何 SELECT 命令 
select fields 
FROM 


from statement 


使 用 已 有 表 创 建新 表 

这 个 练习 可 以 使 你 从 名 为 census.person 的 表 中 查询 数据 ， 并 且 将 结果 上 传 到 一 个 名 为 
census.personhub 的 表 中 。 

该 示例 使 用 了 示例 脚本 Script PersonHub.txt。 

完整 的 脚本 如 下 。 

## 使 用 已 有 数据 库 


USE census; 


HH 创建 新 表 

CREATE TABLE personhub ( 
persid int 

5 


Ht APES AMR, AERP OF BE 
INSERT OVERWRITE 

TABLE personhub 

SELECT DISTINCT personId FROM Person; 


Ht 检查 数据 是 否 已 在 表 中 
SELECT 

persid 
FROM 

personhub; 


如 果 你 在 Hive 命令 行 中 运行 该 脚本 ， 将 得 到 如 下 结果 。 
hive> USE census; 


OK 
Time taken: 0.664 seconds 


hive> CREATE TABLE personhub ( persid int ); 
OK 
Time taken: 3.098 seconds 


hive> INSERT OVERWRITE TABLE personhub SELECT DISTINCT personId FROM Person; ); 
Query ID = root_201606081616 9defdc9d-5d2d-46aa-87e1-a7e7247b2362 
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Total jobs = 1 
Launching Job 1 out of 1 


Status: Running (Executing on YARN cluster with App id application 1441527339718 004 


VERTICES STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED 
MAP X sae canan SUCCEEDED 1 1 0 0 0 0 
Reducer 2 .... SUCCEEDED 1 1 0 0 0 0 
VERTICES: 02/02 [======================>>] 100% ELAPSED TIME: 31.84 s 


Loading data to table census.personhub 

Table census.personhub stats: [numFiles-1, numRows=80, totalSize=232, rawDataSize-152] 
OK 

Time taken: 39.003 seconds 


结果 应 该 是 80 条 记录 ( 这 里 显示 前 5 条 )。 


hive> SELECT persid FROM personhub; 
OK 


O^ un 4 UJ N 


.. ( Only shown 5 record - 75 records removed ...) 
Time taken: 2.7.64 seconds, Fetched: 80 record(s) 


现在 我 们 再 次 上 传 数据 并 测试 去 除 OVERWRITE 参数 后 的 执行 情况 。 


USE census; 


INSERT OVERWRITE TABLE personhub SELECT DISTINCT persid FROM Person; 


测试 是 否 所 有 数据 都 已 加 载 ， 而 且 没有 删除 之 前 的 数据 。 


SELECT persid FROM personhub; 
结果 应 该 是 160 2& LER 5 条 ). 


hive> USE census; 
OK 
Time taken: 0.662 seconds 


hive> INSERT OVERWRITE TABLE personhub SELECT DISTINCT personId + 1000 FROM Person; ); 
Query ID = root 201606081622 8defde9d-5d2d-46aa-87e1-a9e7247b2362 

Total jobs = 1 

Launching Job 1 out of 1 


Status: Running (Executing on YARN cluster with App id application 1441527339718 005 


一 一 一 一 一 一 一 一 一 一 一 一 mm 一 一 一 一 一 一 一 一 一 一 一 一 mm 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
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9.1 


. Reducer 2 .... SUCCEEDED 1 1 0 0 0 0 


Loading data to table census.personhub 


Table census.personhub stats: [numFiles-1, numRows-80, totalSize-232, rawDataSize-152] 
OK 


Time taken: 41.411 seconds 

hive» SELECT persid FROM personhub; 
OK 

2 

3 

4 

1002 

1003 


Time taken: 2.7.64 seconds, Fetched: 160 record(s) 


3 ”将 查询 到 的 数据 瑟 入 文件 系统 


Hive 文 持 将 查询 到 的 数据 装载 到 Hadoop 分 布 式 文件 系统 中 。 
Hive 语法 如 下 。 


INSERT [OVERWRITE ] 
DIRECTORY directoryname 
SELECT select fields FROM from statement; 


语法 解释 如 下 。 
INSERT 用 于 将 数据 装载 到 Hive 目录 中 的 关键 字 
OVERWRITE 如 果 包 含 ， 支 持 用 户 将 数据 装载 到 一 个 已 经 建 好 的 目录 中 并 且 替 换 之 前 的 数据 


如 果 省 略 ， 支 持 用 户 将 数据 装载 到 一 个 已 经 建 好 的 目录 中 并 且 将 新 数据 追加 到 之 前 的 数 
据 后 面 


DIRECTORY directoryname ”directoryname 是 Hadoop 分 布 式 文 件 系统 中 已 有 的 目录 名 称 


使 用 hadoopfs -mkdir directoryname 来 创建 一 个 目录 


SELECT 这 可 以 是 任何 针对 Hive 生态 系统 的 SELECT 命令 
select fields 
FROM 


from statement 


使 用 已 有 表 创 建 输出 目录 

本 练习 使 你 可 以 将 查询 person 表 得 到 的 数据 上 传 到 输出 目录 。 
本 例 使 用 了 示例 脚本 Script PersonDirectory.txt。 

完整 脚本 如 下 。 


hadoop fs -mkdir 'exampleoutput' 
hive 


USE census; 
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INSERT OVERWRITE DIRECTORY 'exampleoutput' 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
SELECT persid, firstname, lastname 

FROM person; 


exit; 


测试 一 下 是 否 所 有 数据 都 已 装载 。 


hadoop fs -cat 'exampleoutput/000000 0' 


如 果 在 Hive 命令 行使 用 该 脚本 ， 将 得 到 下 述 结果 。 


hive> INSERT OVERWRITE DIRECTORY 'exampleoutput' 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 
> SELECT persid, firstname, lastname FROM person; 


Query ID = root 201606081622 8dedde9d-9d2d-46ab-89e1-a9e7249b2362 
Total jobs = 1 
Launching Job 1 out of 1 


Status: Running (Executing on YARN cluster with App id application 1441527339718 012 


- - _- -á -nmm 


VERTICES STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED 
PAP OE roit SUCCEEDED 1 1 0 0 0 0 
VERTICES: 01/01 [======================$3]| 100% ELAPSED TIME: 22.05 s 


Loading data to table census.personhub 

Table census.personhub stats: [numFiles-1, numRows-80, totalSize-232, rawDataSize-152] 
OK 

Time taken: 66.685 seconds 


hive» exit; 


> hadoop fs -cat 'exampleoutput/000000. 0' 


2 SMITH AARON 

3 SMITH ABDUL 

4 SMITH ABE 

5 SMITH ABEL 

6 SMITH ABRAHAM 

7 SMITH ABRAM 

8 SMITH ADALBERTO 
9 SMITH ADAM 

10 SMITH ADAN 

11 JOHNSON AARON 


5.1.4 ”直接 向 表 插入 值 
Hive 支持 用 一 系列 静态 值 直 接 将 数据 装载 到 表 中 。 
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‘Hive 语法 如 下 o 
INSERT 
INTO TABLE tablename 
VALUES 
(row values1), 
(row values2); 


语法 解释 如 下 。 
INSERT | 用 于 将 数据 装载 到 Hive 目录 的 关键 字 
TABLE -tablename tablename 是 Hive 中 已 有 表 的 名 称 。 使 用 CREATE TABLE tablename 语句 


VALUES (row values1), (row values2) {Hi row valuesi 和 row values2 是 相同 格式 的 单条 记录 ， 而 不 是 表 的 记录 


将 额外 记录 添加 到 已 有 表 中 

本 练习 使 你 可 以 将 一 条 记录 直接 插入 到 一 个 名 为 personhub 的 表 中 。 
本 例 使 用 了 示例 脚本 Script PersonValues.txt。 

完整 脚本 如 下 。 


USE census; 


INSERT 
INTO TABLE personhub 
VALUES 


(0); 
测试 一 下 是 否 所 有 数据 都 已 加 载 。 


USE census; 


SELECT persid 
FROM personhub 
WHERE persid = 0; 


如 果 在 Hive 命令 行使 用 该 脚本 ， 则 结果 如 下 。 


hive> USE census; 
OK 
Time taken: 0.662 seconds 


hive> INSERT INTO TABLE personhub VALUES (0); 

Query ID = root 201606081622 8defde5d-5d2d-46aa-89e1-a9e7247b2362 
Total jobs - 1 

Launching Job 1 out of 1 


Status: Running (Executing on YARN cluster with App id application 1441527339718 015 


i 
一 一 一 一 
一 一 一 一 一 一 


5.1 将 数据 装载 到 表 中 


Loading data to table census.personhub 


Table census.personhub stats: [numFiles-1, numRows=80, totalSize-232, rawDataSize-152] 
OK 


Time taken: 41.411 seconds 


结果 应 该 是 单条 记录 。 


hive> SELECT persid FROM personhub WHERE persid = 0; 
OK 

O 

Time taken: 5.493 seconds, Fetched: 1 record(s) 


5.1.5 直接 更 新 表 中 数据 


Hive 支持 和 直接 将 数据 更 新 到 表 中 。 
Hive 语法 如 下 。 


UPDATE tablename 
SET column = value 
[WHERE expression]; 


霹 法 解释 如 下 。 
UPDATE 用 于 更 新 表 中 值 的 关键 字 
tablename tablename 是 Hive 中 已 有 表 的 名 称 。 使 用 CREATE TABLE tablename 语句 
SET column = value SET 命令 更 新 该 列 的 一 个 值 
[WHERE expression] WHERE 可 用 于 为 不 同 的 查询 挑选 特定 列 的 值 
已 有 表 中 的 记录 


本 练习 使 你 能 够 直接 在 名 为 person20 的 表 中 更 新 数据 。 
该 示例 使 用 脚本 Script PersonUpdate.txt。 
完整 的 脚本 如 下 。 


USE census; 


CREATE TABLE census.person20 ( 


Persid int, 
lastname string, 
firstname string 


) 

CLUSTERED BY (persid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true'); 


INSERT INTO TABLE person20 VALUES (0,'A','B'),(2,'X', Y); 


测试 一 下 数据 是 否 已 更 新 。 


SELECT * 
FROM 
census.person20; 
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OK 

0 A B 

2 X Y 
现在 执行 更 新 操作 。 


USE census; 
UPDATE 


census.person20 
SET lastname = 'SS' 


WHERE 
persid = 0; 
SELECT ^ 
FROM 
census.person20; 
结 采 应 该 有 两 行 记 录 。 
OK 
0 SS B 
2 X Y 


5.1.6 ”在 表 中 直接 删除 数据 


Hive 支持 直接 在 表 中 删除 数据 。 
Hive 语法 如 下 o 

DELETE tablename 

[WHERE expression]; 


语法 解释 如 下 。 
DELETE 用 于 删除 表 中 值 的 关键 字 
tablename tablename 是 Hive 中 已 有 表 的 名 称 。 使 用 CREATE TABLE tablename 语句 
[WHERE expression] WHERE 可 以 用 于 挑选 查询 要 删除 的 特定 列 的 值 

在 已 有 表 中 更 新 记录 


本 练习 使 你 能 够 直接 在 名 为 person30 的 表 中 更 新 记录 。 
该 示例 使 用 了 脚本 Script_PersonDelete.txt. 
完整 的 脚本 如 下 。 


USE census; 


CREATE TABLE census.person30 ( 


persid int, 
lastname string, 
firstname string 


) 


CLUSTERED BY (persid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true'); 


INSERT INTO TABLE census.person3O 
VALUES T8, A E OS X VY 3s 


SELECT * 

FROM census.person30; 
结 来 应 该 有 两 条 记录 。 
OK 

0 A B 

2 X ¥ 


删除 一 条 记录 。 


USE census; 


DELETE FROM census.person30 
WHERE persid = 0; 


SELECT * 
FROM census.person30; 


结果 应 该 是 一 条 记录 。 


2,1 


将 数据 装载 到 表 中 
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CREATE TABLE 创建 表 的 关键 字 


OK 
0 A B 
2 X Y 
5.1.7 ”创建 结构 相同 的 表 
Hive 文 持 基 于 一 个 已 有 表 的 结构 创建 一 个 新 表 。 
Hive 语法 如 下 。 : 
CREATE 
TABLE blank tablename 
LIKE tablename; 
语法 解释 如 下 。 
blank tablename 待 创建 表 的 名 称 
LIKE 确保 使 用 相同 结构 的 关键 字 
tablename 


使 用 已 有 表 来 创建 结构 相同 的 新 表 


该 表 名 是 Hive 中 已 有 表 的 名 称 。 使 用 CREATE TABLE tablename 语句 


本 练习 使 你 能 够 使 用 person 表 的 结构 来 创建 一 个 名 为 person40 的 表 。 


该 例 用 到 了 脚本 Script PersonLike.txt。 
完整 脚本 如 下 。 
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, USE census; 


CREATE TABLE person40 LIKE person; 


SELECT * FROM person40; 


测试 数据 是 否 已 更 新 。 


INSERT INTO TABLE person40 VALUES (0,'Bob','Burger'), (1, ‘Charlie’, 'Clown'); 
SELECT * FROM person40; 


结 采 应 该 有 两 行 记 录 。 


OK 
0 A B 
2 X Y 
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5.2.1 使 用 等 值 连接 来 整合 表 


Hive 支持 表 之 间 的 等 值 连接 ， 使 你 能 够 整合 来 自 两 个 表 的 数据 
Hive 语法 如 下 。 

SELECT table fields 

FROM table one 

JOIN table two 


ON (table one.key one = table two.key one 
AND table one.key two = table two.key two); 


语法 解释 如 下 。 


SELECT table fields 用 于 从 两 个 表 中 选取 一 系列 字段 的 关键 字 


FROM table one 罗列 出 两 个 为 了 检索 table fields 而 进行 连接 操作 的 表 
JOIN table two 


ON (table one.key one = table two.key one 列 出 连接 两 个 表 的 等 值 规则 
AND table one.key two = table two.key two) 


连接 Hive 中 的 表 

本 练习 使 你 能 够 在 表 Census .personname 和 表 census . address 之 间 创 建 连接 
本 例 用 到 了 脚本 Script EqualJoin.txt。 

完整 脚本 如 下 。 


USE census; 
CREATE TABLE census.personname ( 


persid int, 

firstname string, 

lastname string 
) 


CLUSTERED BY (persid) INTO 1 BUCKETS 
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STORED AS orc 
TBLPROPERTIES('transactional' - 'true'); 


INSERT INTO TABLE census.personname 
VALUES 

(0, 'Albert', 'Ape'), 

(1,'Bob', 'Burger'), 

(2,'Charlie', 'Clown'), 

(3, ‘Danny’, 'Drywer'); 


CREATE TABLE census.address ( 

persid int, 

postname string 
) 
CLUSTERED BY (persid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' - 'true'); 
INSERT INTO TABLE census.address 


VALUES 

(1, 'KA13'), 

(2, 'KA9'), 

(10, 'SW1'); 

现在 你 有 了 名 为 census.personname 和 census.address 的 两 个 表 。 
现在 执行 连接 操作 。 


SELECT personname. firstname, 
personname. lastname, 
address.postname 
FROM 
census.personname 
JOIN 
census.address 
ON (personname.persid = address.persid); 


连接 的 结果 如 下 所 示 。 

OK 

Bob Burger KA13 
Charlie Clown KA9 


5.2.2 ”使 用 外 连接 


Hive 支持 采用 LEFT, RIGHT 和 FULL OUTER 等 连接 方式 实现 表 之 间 的 等 值 连接 , 这 其 中 无 匹配 
的 键 

Hive 霹 法 如 下 。 

SELECT table fields 

FROM table one 

[LEFT, RIGHT, FULL OUTER] JOIN table two 


ON (table one.key one = table two.key one 
AND table one.key two - table two.key two); 
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.语法 解释 如 下 。 


SELECT table fields 
FROM table one 
LEFT JOIN table two 


FROM table one 
RIGHT JOIN table two 


FROM table one 
FULL OUTER JOIN table two 


ON (table one.key one = table 
two.key_one 
AND table one.key two = table_ 
two.key_two) 


用 于 从 两 个 表 选 择 一 系列 字段 的 关键 字 
列 出 为 了 检索 table fields 而 进行 连接 操作 的 两 个 表 


LEFT 连 接 产生 的 结果 包含 表 table one 中 匹配 where 语 句 的 字段 值 以 及 表 table two 
中 匹配 和 不 匹配 where 语句 的 字段 值 


列 出 为 了 检索 table fields 而 进行 连接 操作 的 两 个 表 

RIGHT 连接 产生 的 结果 包含 表 table two 中 匹配 where 语句 的 字段 值 以 及 表 
table one 中 匹配 和 不 匹配 where 语句 的 字段 值 

列 出 为 了 检索 table fields 而 进行 连接 操作 的 两 个 表 


FULL OUTER 连接 将 返回 表 table two 和 table one 中 的 字段 值 ;， 当 有 不 匹配 where 
语句 的 行 时 ， 其 字段 值 为 NULL 


列 出 连接 两 个 表 的 等 值 规则 


1. 使 用 左 连接 方式 连接 Hive 中 的 表 
Hive 文 持 表 之 间 的 等 值 连接 ,使 你 可 以 整合 来 自 两 个 表 的 数据 。 
本 例 用 到 了 脚本 Script OuterJoin.txt。 


完整 脚本 如 下 。 


USE census; 


SELECT personname.firstname, 


personname.lastname, 
address.postname 
FROM 
census.personname 
LEFT JOIN 
census.address 


ON (personname.persid - address.persid); 


结果 应 该 是 4 条 记录 。 
OK 


Albert Ape NULL 
Bob Burger KA13 
Charlie Clown KA9 
Danny Drywer NULL 


2. 使 用 右 连 接 方式 连接 Hive 中 的 表 
让 我 们 做 一 次 右 连 接 操作 。 


SELECT personname. firstname, 


personname. lastname, 

address .postname 
FROM 

census .personname 
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RIGHT JOIN 
census.address 
ON (personname.persid = address.persid); 


结果 应 该 是 3 条 记录 。 


OK 

Bob Burger KA13 
Charlie Clown KA9 
NULL NULL SW1 


3. 使 用 完全 外 连接 方式 连接 Hive 中 的 表 
现在 进行 外 连接 操作 。 


SELECT personname.firstname, 
personname. lastname, 
address.postname 
FROM 
census. personname 
FULL OUTER JOIN 
census.address 
ON (personname.persid = address.persid) ; 


结果 应 该 是 5 条 记录 。 


OK 

Albert Ape NULL 
Bob Burger KA13 
Charlie Clown KA9 
Danny Drywer NULL 
NULL NULL SW1 


5.2.3 ”使 用 左 半 连 接 
Hive 支持 表 之 间 的 组 套 连接 。 假设 有 如 下 这 样 的 姐 套 连接 : 


SELECT a.key, a.value 
FROM a 
WHERE a.key in 
(SELECT b.key 
FROM B); 


由 于 采用 分 布 式 处 理 ， 该 查询 在 Hive 中 会 失败 。 
Hive 可 以 处 理 查 询 并 且 使 用 SEMI JOIN 命令 。 
Hive 场 法 如 下 。 


SELECT table fields 

FROM table one 

LEFT SEMI JOIN table two 

ON (table one.key. one - table two.key one); 


语法 解释 如 下 
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SELECT table fields 用 于 从 两 个 表 中 选择 一 系列 字段 的 关键 字 
FROM table one LEFT SEMI JOIN table two 罗列 为 检索 table fields 而 进行 半 连 接 操作 的 两 个 表 
ON (table one.key one = table two.key one); 罗列 连接 两 个 表 所 需 的 等 值 规则 

执行 半 连 接 


Hive 文 持 表 之 间 的 半 连 接 操作 ， 使 你 能 够 对 两 个 表 中 的 数据 进行 整合 。 
本 例 使 用 了 脚本 Script SemiJoin.txt。 
完整 脚本 如 下 。 


USE census; 


SELECT 
personname. firstname, 
personname. lastname 
FROM 
census.personname 
LEFT SEMI JOIN 
census.address 
ON (personname.persid = address.persid); 


结果 应 该 是 两 条 记录 。 


OK 
Bob Burger KA13 
Charlie Clown KA9 


5.2.4 用 单 次 MapReduce 实现 连接 


如 果 在 连接 链 中 使 用 了 公共 键 ，Hive 还 文 持 通过 一 次 MapReduce 来 连接 多 个 表 ， 
Hive 语法 如 下 o 

SELECT table one.key one, table two.key one, table three.key one 

FROM table one JOIN table two 

ON (table one.key one = table two.key one) 

JOIN table three 

ON (table three.key one = table two.key one); 


语法 解释 如 下 。 
SELECT table one.key one, table two.key one, 从 所 有 表 中 选取 一 系列 字段 的 关键 字 
table three.key one 
FROM table one JOIN table two 列 出 为 检索 table fields 所 需 连 接 的 第 1 个 表 和 第 2 个 表 
ON (table one.key one = table two.key one) 列 出 连接 第 1 个 表 和 第 2 个 表 的 等 值 规则 
JOIN table three 列 出 检索 table fields 所 需 连 接 的 第 3 个 表 
ON (table three.key one = table two.key one) 列 出 连接 第 3 个 表 的 等 值 规则 


在 一 次 MapReduce 中 连接 3 个 表 
本 练习 可 使 你 在 一 次 MapReduce 中 连接 3 个 表 。 
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本 例 使 用 了 脚本 Script MultiJoin.txt。 
完整 脚本 如 下 。 


USE census; 


CREATE TABLE census.account ( 

persid int, 

bamount int 
) 
CLUSTERED BY (persid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true'); 
INSERT INTO TABLE census.account 
VALUES 
(1,12), 
(2,9); 


SELECT 
personname.firstname, 
personname. lastname, 
address.postname, 
account .bamount 
FROM 
census .personname 
JOIN 
census.address 
ON (personname.persid = address.persid) 
JOIN 
census.account 
ON (personname.persid = account.persid) ; 


结果 应 该 是 两 条 记录 。 


OK 
Bob Burger KA13 12 
Charlie Clown KA9 9 


5.2.5 最 后 使 用 最 大 的 表 


Hive 在 实施 连接 时 可 先 缓存 前 几 个 要 连接 的 表 ， 然 后 再 针对 它们 映射 最 后 一 个 表 。 
总 是 将 最 大 的 表 放 在 后 面 是 一 种 比较 好 的 实践 方法 ， 因 为 这 样 做 会 加 速 处 理 过 程 。 
Hive 语法 1 如 下 。 

SELECT table one.key one, table two.key one, table three.key one 

FROM table one JOIN table two 

ON (table one.key one - table two.key one) 


JOIN table three 
ON (table three.key one - table two.key one); 


语法 解释 1 如 下 。 
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table one and table two 在 内 存 中 缓存 
table three 直接 从 硬盘 映射 
Hive 语 法 2 如 下 。 


SELECT table one.key one, table two.key one, table three.key one 
FROM table one JOIN table three 

ON (table one.key one = table three.key one) 

JOIN table two 

ON (table two.key one = table three.key one); 


语法 解释 2 如 下 。 
table one and table three 在 内 存 中 缓存 
table two 直接 从 硬盘 映射 
526 事务 处 理 


Hive 支持 合乎 ACID 规定 的 事务 处 理 。 这 样 通过 在 Hive 数据 库 确 保 完 整 性 ， 使 得 对 事务 处 
理 的 文 持 遵从 完备 性 。 


注意 对 于 大 多 数 Hive 安装 环境 来 说 , 这 并 不 是 一 种 默认 设置 , 因为 这 将 市 来 性 能 方面 的 影响 ， 
原因 在 于 为 确保 ACID 合 规 性 需要 进行 额外 的 处 理 。 


5.2.7 ACID 是 什么 ， 以 及 为 什么 要 用 到 蕊 


ACID 代表 数据 库 事务 处 理 的 4 个 特征 。 

O 原子 性 (A): 一 个 操作 要 么 成 功 完成 要 么 失败 ， 操 作 不 会 在 系统 中 留 下 未 完成 的 数据 
O 一 致 性 (C ): 一 个 操作 一 旦 完成 ， 该 操作 的 结果 对 随后 的 每 个 操作 都 是 可 见 的 。 

O 隔离 性 C1): 一 个 用 户 完成 的 操作 不 会 对 其 他 用 户 造 成 不 可 预期 的 负面 影响 。 

OQ 持久 性 CD): 当 一 个 操作 完成 ， 即 使 机 器 或 系统 出 现 了 故障 ， 仍 然 会 保留 该 操作 的 效果 
这 些 行为 是 强制 实施 的 ， 用 于 确保 事务 处 理 的 功能 性 。 

如 果 你 的 操作 合乎 ACID 规定 ， 系 统 将 确保 你 的 处 理 能 够 在 任何 故障 中 得 到 保护 。 


5.2.8 Hive 配置 


Hive 通过 设置 正确 的 参数 来 文 持 事务 处 理 。 
为 了 支持 事务 处 理 ， 需 要 设置 如 下 配置 。 为 了 在 Hive 中 开局 事务 文 持 ， 必 须 正 确 设置 这 些 
配置 参数 。 


口 hive.support.concurrency true 


QO) hive.enforce.bucketing——true 
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nonstrict 


D hive.exec.dynamic.partition.mode 


D hive.txn.manager org.apache.hadoop.hive.ql.lockmgr.DbTxnManager 

O hive.compactor.initiator.on—— —4E Thrift 元 存储 服务 的 一 个 实例 上 为 true 
D hive.compactor.worker.threads 一 一 对 于 Thrift 元 存储 服务 的 一 个 实例 为 10 
请 使 用 如 下 表格 式 。 


CREATE TABLE table one ( 


keyField int, 
valueFieldOne string, 
valueFieldTwo string 


) 

CLUSTERED BY (keyField) INTO x BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true'); 
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假设 你 已 经 在 目 己 的 组 织 中 构建 了 一 个 数据 湖 , 并 且 其 中 一 个 业务 领域 已 请 求 了 一 个 新 的 待 
实现 用 例 , 例如 一 个 360 度 的 客户 视图 。 在 你 考虑 用 例 的 细节 时 ,会 发 现 需要 对 所 有 驻 留 在 现 有 
作业 系统 、 数 据 仓 库 中 的 客户 数据 进行 分 析 , 并 且 要 对 社交 媒体 、 客 户 服务 、 呼 叫 中 心 产生 的 所 
有 新 数据 进行 分 析 ， 进 而 得 到 一 个 完整 的 客户 画像 。Hadoop 作为 一 个 通用 的 大 规模 分 布 式 处 理 
平台 ， 非 常 适合 这 项 工作 。 

然而 ， 在 该 数据 湖上 进行 任何 类 型 的 分 析 之 前 ， 首 要 任务 是 装载 数据 。 以 前 ， 从 作业 系统 中 
抽取 数据 并 以 批 处 理 形式 将 数据 装载 到 数据 仓库 是 一 种 常见 模式 。 但 是 就 当前 的 特定 用 例 而 言 ， 
你 需要 装载 来 自 关 系数 据 库 的 结构 化 数据 、Twitter 上 的 推 文 数据 、Facebook 的 动态 消息 ,以 及 来 
目 呼 叫 中 心 系统 的 音频 电话 记录 。 

以 前 ，Hadoop 生态 系统 中 没有 一 种 工具 能 够 从 所 有 系统 装载 数据 集 ， 也 无 法 装载 所 有 格式 
的 数据 。 现 在 不 同 了 ，Hadoop 社区 编写 了 各 种 工具 ， 它 们 在 有 些 系统 上 运行 得 很 好 ， 而 且 能 够 
以 特定 格式 装载 数据 。 正 如 你 所 想象 的 那样 , 用 不 同 的 工具 装载 来 自 不 同系 统 且 格式 各 异 的 数据 
很 快 就 会 成 为 一 个 复杂 的 问题 。 装 载 数据 的 复杂 性 还 可 能 会 受到 其 他 一 些 因 素 的 影响 。 而 且 从 源 
系统 朔 载 数据 的 频率 也 可 能 会 对 最 佳 工具 产生 影响 。Apache NiFi ( Hortonworks 数据 流 平台 的 一 
部 分 ) 正 是 针对 这 一 问题 ， 它 已 经 成 为 这 类 综合 工具 的 典范 , 可 适用 于 各 种 类 型 的 数据 装载 和 摄 
和信 场景 。 

不 管 源 的 类 型 、 数 据 的 结构 以 及 用 于 装载 数据 的 工具 如 何 ， 在 基于 Hadoop 的 平台 上 ， 所 有 
数据 都 存放 在 HDFS 中 。 由 于 Hive 是 Hadoop 上 的 一 个 SQL 层 ， 因 此 所 有 的 数据 都 需要 先 装载 
到 HDFS 中 ， 然 后 才能 通过 Hive 进行 查询 。 

本 章 将 介绍 可 将 各 种 类 型 的 数据 装载 到 HDFS 的 常用 工具 。 有 些 工 具 需 要 手动 添加 Hive 元 
数据 ， 另 一 些 工 具 则 可 以 自动 更 新 Hive Metastore， 以 通过 Hive 对 新 添加 的 数据 进行 分 析 


6.1 XMAS AAI ERS 


在 开始 向 Hadoop 中 填充 数据 之 前 ， 你 应 该 考虑 如 下 一 些 要 点 。 
O 必须 设计 HDFS 文件 系统 布局 ， 以 便 存 储 各 种 类 型 的 数据 。 这 将 确保 不 同 用 户 可 以 更 加 
方便 地 进行 数据 管理 、 发 现 和 访问 控制 。 
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口 如 果 从 关系 数据 库 加 载 结构 化 数据 ， 则 需要 决定 是 否 在 Hive 或 不 同 的 数据 模型 中 创建 相 
似 的 模式 。 

a 数据 在 HDFS 中 的 存储 格式 (如 ORC 文件 、RC 文件 、AVRO、Parquet 等 ) 会 影响 通过 
Hive 运行 查询 的 性 能 。Hive 中 最 近 的 性 能 优化 大 多 要 用 到 ORC 文件 ; 我 们 将 在 第 9 章 中 
『「 解 更 多 细节 。 

O 根据 数据 体 量 和 访问 模式 的 不 同 ， 你 还 应 该 决定 最 合适 的 压缩 算法 (例如 Snappy, Zlib, 
LZO 等 )， 以 便当 数据 被 复制 到 HDFS 时 应 用 。 

O 建议 不 要 在 HDFS 中 存储 大 量 极 小 的 文件 。 这 将 导致 NameNode 的 命名 空间 使 用 效率 低 
下 。， 因 此， 确定 恰当 的 文件 大 小 并 且 对 所 有 文件 进行 正确 配置 很 重要 。 

O 数据 的 装载 模式 可 以 采用 一 次 性 批量 、 频 索 批 量 或 实时 摄 入 。 对 数据 痛 载 工具 的 选择 可 
以 由 装载 模式 来 驱动 


6.2 JJA E RAE] HDFS 


本 节 介 绍 将 数据 迁移 到 Hadoop 的 技术 和 工具 。 从 简单 的 Hadoop shell 命令 到 更 复杂 的 处 理 ， 
Hadoop 收集 数据 的 方法 有 多 和 种。 我们 将 讨论 这 些 处 理 过 程 ， 也 会 举 一 些 例子 。 这 些 方法 都 假定 
你 对 复制 文件 的 HDFS 目录 拥有 操作 权限 


6.2.1 Ambari 文件 视图 


Ambari 文件 视图 是 与 Ambari 一 起 发 布 的 视图 之 一 。 该 视图 为 浏览 HDFS 、 创 建 / 删 除 目 录 、 
下 载 /上 传 文件 等 提供 了 一 个 Web 用 户 界面 。 要 使 用 Ambari 文件 视图 ， 集 群 必须 部 区 HDFS 和 
WebHDFS. 

你 可 以 使 用 Ambari 文件 视图 将 文件 上 传 到 HDFS, 4 P Er. 

(1) 登录 Ambari。 | 

(2) 打开 Ambari 文件 视图 。 将 鼠标 悬 停 在 登录 用 户 名 左边 的 Your Views RAE, 可 以 查看 含 
有 所 有 可 用 视图 实例 的 下 拉 列 表 ( 如 图 6-1 所 示 )。 


YARN Queue Manager 


Files View 
Hive 
Pig 

Ni Storm 


e Tez View 


图 6-1 Ambari 视图 列表 
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(3) 点 击 Files View 选项 浏览 HDFS 文件 系统 ( 如 图 6-2 所 示 )。 在 你 的 集群 中 ，Files View 实 
例 的 实际 名 称 可 能 会 不 同 。 
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图 6-2 Ambari 文件 视图 


(4) 选择 你 想 要 上 传 文件 的 HDFS 目录 


Format Aj Files [S] 


图 6-3 浏览 本 地 文件 
(6) 选择 你 想 上 传 的 文件 ， 然 后 点 击 Upload 按钮 
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(7) 现在 应 该 可 以 在 当前 目录 下 的 文件 列表 中 看 到 上 传 的 文件 ( 如 图 6-4 所 示 )。 


/ tmo * hem Groctory d an X omm = 
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Name w Sue Owner Group Permission Asc Nare 
Fito. 
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E 0x8 aman hats Ar Br PR | 
| Lava SOA Wea Y tnt | 
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图 6-4 使 用 Ambari 文件 视图 上 传 的 文件 


6.2.2 Hadoop 命令 行 


Hadoop 有 一 个 内 置 的 hadoop 命令 行 ， 你 可 以 使 用 它 将 文件 从 本 地 文件 系统 迁移 到 HDFS。 
当 你 无 法 访问 Ambari 但 是 可 以 通过 shell 访问 时 ， 采 用 这 个 命令 行 工具 非常 方便 。 这 个 命令 行 脚 
本 有 许多 命令 可 以 用 于 在 HDFS 中 执行 其 他 操作 。 然 而 在 本 节 中 ,我 们 只 讨论 将 文件 上 传 到 HDFS 
的 选项 。 其 他 所 有 命令 都 超出 了 本 书 的 范畴 。 

下 面 是 在 HDFS 中 复制 文件 的 语法 。 

hadoop fs - put source path hdfs path 

让 我 们 看 一 个 例子 ， 它 将 另 一 个 CSV 文件 复制 到 HDFS /tmp 目录 下 。 


[hdfs@sandbox tmp|$ hadoop fs -put /tmp/2014-01-28.csv /tmp/ 
[hdfs@sandbox tmp]$ hadoop fs -ls /tmp/ 
Found 6 items 


drwxrwxrwx - admin hdfs O 2016-05-01 21:48 /tmp/.hivejobs 
-rW-I--r-- 1 hdfs hdfs 3864 2016-06-14 22:14 /tmp/2014-01-28.csv 
-IW-I--I-- 3 admin hdfs 7168 2016-04-27 19:03 /tmp/2015-03-28.csv 
drwx-wx-wx - ambari-qa hdfs 0 2015-09-20 16:56 /tmp/hive 
drwxr-xr-x - root hdfs O 2016-05-01 22:24 /tmp/root 
drwxrwxrwx - hdfs hdfs O 2015-08-19 12:46 /tmp/udfs 


6.2.3. HDFS 的 NFS Gateway 


NFS Gateway 是 一 个 无 状态 的 守护 进程 ， 它 将 NFS 协议 转换 为 HDFS 访问 协议 。 它 允许 客 
户 端 挂 载 HDFS, ， 并 通过 NFS 与 它 进 行 交 互 ， 就 好 像 它 是 本 地 文件 系统 的 一 部 分 。 通 过 运行 这 
种 守护 进程 的 多 个 实例 ， 可 以 从 多 个 客户 端 对 HDFS 进行 高 吞吐 的 读 / 写 访 问 。 在 客户 端 使 用 
NFS Gateway 挂 载 HDFS 之 前 ， 必 须 将 NFS Gateway 安装 在 Hadoop 集群 的 一 个 数据 闻 点 或 
NameNode 上 。 当 使 用 NFS Gateway 挂 载 HDFS 之 后 , 用 户 就 可 以 使 用 操作 系统 的 命令 行将 文件 复 
制 到 HDFS。 
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6.2.4 Sqoop 


如 图 6-5 所 示 ，Sqoop 用 于 在 结构 化 数据 存储 ( 例如 关系 数据 库 、 企 业 数据 仓库 ) 与 NoSQL 
系统 和 Hadoop 之 间 传 输 数据 。 它 将 外 部 系统 的 数据 提取 到 HDFS， 而 且 也 可 以 将 其 填 和 人 Hive 和 
HBase 中 的 表 。Sqoop 自动 完成 大 部 分 处 理 ， 依 靠 数据 库 来 描述 待 导 入 数据 的 模式 。 


图 6-5 Sqoop 的 工作 流程 


Sqoop 采用 了 基于 连接 器 的 架构 ， 可 以 连接 到 各 种 外 部 系统 。 这 些 连 接 顺 使 用 一 组 JDBC 4K 
动 程序 来 与 各 种 系统 进行 通信 。 对 那些 不 提供 JDBC 接口 的 外 部 系统 , 也 可 以 使 用 这 些 连 接 顺 来 
访问 。 不 同 的 外 部 系统 有 着 不 同 的 连接 需 。 根 据 可 从 Sqoop 连接 的 不 同 外 部 系统 ,你 可 以 添加 适 
当 的 插件 。Sqoop 中 常见 的 一 些 连 接 器 有 MySQL, Netezza, Oracle, PostgreSQL , Microsoft SOL 
Server 和 Teradata 等 。 

TEA DB, 我 们 将 介绍 Sqoop 的 总 体 架 构 , 并 且 研 究 一 些 从 MySQL 数据 库 导 入 数据 的 示例 


1. Sqoop 如 何 工作 

Sqoop 用 于 数据 的 大 批量 传输 。 在 内 部 , 它 使 用 MapReduce 从 HDFS 读 取 数据 和 向 其 中 写 入 
数据 。 当 运行 Sqoop 命令 时 ， 需 要 传输 的 数据 集 被 分 成 多 个 块 ， 且 为 每 个 数据 块 分 配 一 个 Map 
作业 。 这 些 数据 分 片 可 以 并 行 工 作 ， 这 就 是 Sqoop 能 够 高 效 地 传输 大 批量 数据 的 原因 。 

图 6-6 描述 了 一 个 含有 4 条 并 行路 线 的 Sqoop 导入 作业 ， 它 将 数据 装载 到 HDFS 中 。 


> i 


图 6-6 Sqoop 导入 架构 
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2. Sqoop 示例 
让 我 们 看 几 个 使 用 Sqoop 来 迁移 数据 的 例子 


e 将 表 导 入 HDFS 
sqoop import --connect jdbc:mysql://localhost/test --table TEST1 --username root --m 1 


效 命 令 将 从 MySQL 数据 库 test 中 导出 表 TEST1， 并 且 将 其 存放 在 HDFS 的 /user/<user>/ 
MRi: 中 。 


e 将 表 导 入 HDFS 的 特定 目录 下 


sqoop import --connect jdbc:mysql://localhost/test --table TEST1 --username root --m 1 
--target-dir /hive/tables/TEST1/ 


在 本 例 中 ， 表 TEST1 的 内 容 将 存放 在 HDFS 的 /hive/tables/TEST1 目录 下 。 
e 将 数据 库 中 的 表 全 部 导入 HDFS 


sqoop import-all-tables --connect jdbc:mysql://localhost/test --username root 


In test 数据 库 中 的 所 有 表 导 入 到 HDFS 中 。Sqoop 导入 作业 在 /user/root 目录 下 为 每 
Nei 了 一 个 目录 。 我们 可 以 看 到 如 下 所 示 的 导入 表 列 表 。 


[root@sandbox ~]# hadoop fs -ls /user/root 
Found 5 items 


drwx------ - root hdfs 0 2016-04-30 21:18 /user/root/.Trash 
drwxr-xr-x  - root hdfs 0 2015-09-20 16:56 /user/root/.hiveJars 
drwx------ - root hdfs O 2016-04-30 22:05 /user/root/.staging 
drwxr-xr-x  - root hdfs O 2016-06-14 22:24 /user/root/TEST1 
drwxr-xr-x  - root hdfs O 2016-06-14 22:24 /user/root/TEST2 


e 将 表 导 入 Hive 

sqoop import --connect jdbc:mysql://localhost/test --table TEST1 --username root --m 1 

--hive-import 

Ann HA TEST1 导入 到 HDFS 中 , PEERK HICA] Hive 中 。 我 们 可 以 对 Hive 
中 的 数据 进行 如 下 验证 操作 。 


hive> use default; 
OK 
Time taken: 1.453 seconds 
hive> select count(*) from test1; 
Query ID = root 20160614222847 b86f0300-0a22-49fe-a56f-e997c3e7e0e2 
Total jobs = 1 
Launching Job 1 out of 1 


Status: Running (Executing on YARN cluster with App id application 1465942169140 0009) 
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,ReGucer 2 semevs SUCCEEDED 1 1 0 0 0 0 
VERTICES: 02/02 [asesee=eeeeeeseee=amecene=s5 |] 100% ELAPSED TIME: 4.98 $ 
OK 
3145728 


Time taken: 13.049 seconds, Fetched: 1 row(s) 


e 将 表 导 入 Hive 并 且 将 数据 存储 为 ORC X 


sqoop import --connect jdbc:mysql://localhost/test --table TEST10 --username root --m 1 
--hcatalog-database default --hcatalog-table TEST10 ORC --create-hcatalog-table --hcatalog- 
storage-stanza "stored as orcfile" 


该 命令 将 在 默认 数据 库 中 创建 一 个 名 为 TEST10 ORC 的 新 表 , 并 且 以 ORC 文件 格式 存储 数据 
在 大 多 数 情况 下 , 将 Hive 表 数 据 存储 为 ORC 格式 是 为 了 利用 最 新 的 性 能 优化 ,例如 矢量 化 。 该 
命令 非常 方便 ， 可 以 创建 表 定 义 并 且 用 单个 步骤 将 数据 装载 成 ORC 格式 。 一 旦 数据 装载 完毕 ， 
就 可 以 按照 如 下 方法 验证 其 格式 。 


hive> describe extended test10 orc; 


OK . 
a int 
b int 


Detailed Table Information Table(tableName:test10 orc, dbName:default, owner:root, 
createTime:1465946427, lastAccessTime:0, retention:0, sd:StorageDescriptor(cols:[Field 
Schema(name:a, type:int, comment:null), FieldSchema(name:b, type:int, comment:null)], 
location: hdfs://sandbox.hortonworks.com:8020/apps/hive/warehouse/test10 orc, inputFormat:org. 
apache. hadoop.hive.ql.io.orc.OrcInputFormat, outputFormat:org.apache.hadoop.hive.ql.io. 
orc.OrcOutputFormat, compressed:false, numBuckets:-1, serdeInfo:SerDeInfo(name:null, 
serializationLib:org.apache.hadoop.hive.ql.io.orc.OrcSerde, parameters:{serialization. 
format=1}), bucketCols:[], sortCols:[], parameters:{}, skewedInfo:SkewedInfo(skewedColNam 
es:[], skewedColValues:[], skewedColValueLocationMaps:{}), storedAsSubDirectories: false), 
partitionKeys:[], parameters:[transient lastDdlTime-1465946427], viewOriginalText:null, 
viewExpandedText:null, tableType:MANAGED TABLE) 

Time taken: 0.585 seconds, Fetched: 4 row(s) 


e 导入 所 选择 的 数据 


sqoop import --connect jdbc:mysql://localhost/test --table TEST1 --username root --m 1 
--where "a»1" 


通过 该 命令 ,可 以 导入 表 TESTA 中 列 a 的 所 有 值 大 于 1 的 数据 。 该 选项 提供 了 一 种 方法 ， 可 
导 人 任何 表 的 一 个 子 集 。 


e 了 叶 入 增 量 数据 
你 还 可 以 使 用 Sqoop 执行 增 量 导入 操作 。 增 量 导 和 人 是 只 回 表 中 导 和 人 新 增 行 的 一 种 方法 。 需 要 
添加 incremental, check-column, last-value 等 选项 来 执行 增 量 导入 。 
O incremental: Sqoop 使 用 它 来 判断 哪 一 行 是 新 的 。 该 模式 的 合法 值 包括 追加 的 和 最 近 修 
改 的 行 。 
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D check-column: 提供 需要 检查 确定 候选 行 的 列 。 
口 last-value: 执行 上 一 次 导入 操作 的 最 大 值 。 


sqoop import --connect jdbc:mysql://localhost/test --username root --table TEST1 --m 1 
--incremental append --check-column id -last-value 1000 


6.2.5 Apache NIFI 


到 目前 为 止 ， 我 们 讨论 的 工具 都 要 求 编写 脚本 、 命 令 行 管理 ， 而 且 在 数据 被 迁移 到 Hadoop 
时 并 不 提供 任何 跟踪 数据 的 方法 。Apache NiFi 提供 了 一 种 非常 易 用 、 强 大 、 安 全 并 且 可 跟踪 的 
方式 来 处 理 和 分 发 数据 。 它 采用 了 一 种 非常 易 用 的 Web 用 户 界 面 ， 提 供 了 对 数据 传输 作业 进行 
必 计 、 探 制 、 管 理 和 监视 的 无 颖 体验 。 这 些 作 业 都 被 称 为 数据 流程 , 而 与 传统 流 式 解 决 方案 不 同 ， 
已 们 都 能 以 双 同 方式 运作 。 这 些 数 据 流程 包含 了 多 个 处 理 程序 , 它们 根据 需要 对 数据 执行 的 操作 
来 提供 逻辑 。 

Apache NiFi 以 压缩 文件 的 形式 进行 发 布 ， 而 安装 时 只 需要 将 该 文件 解压 缩 到 某 个 目录 中 。 
为 了 便于 后 续 探 讨 ， 假 设 你 已 经 在 自己 的 环境 中 安装 了 Apache NiFi。 

我 们 将 创建 一 个 简单 的 数据 流程 来 读 取 Twitter 数据 并 且 将 其 写 人 HDFS 的 一 个 文件 中 。 

(1) iul 9 HE http://<nifihost>:9090/nifi， 登 录 到 Apache NiFi. [Kl 6-7 展示 了 Apache NiFi 的 用 
户 界面 。 
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图 6-7 Apache NiFi 主页 


(2) A THP PRA SE Fe EPRE, FIIF Add Processor 窗口 ， 如 图 6-8 所 示 。 
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Add Processor 
Tinga 
amazon archive 
attributes avro aws | í 
content copy fetch files | compressContent compress, content, bzip2, gzip, decompress, xz-i 
rate, throttle, rate control, throughput 
| ConvertAvroSchema kite, avro, convert 


| ConvertAvroToJSON binary, json, avro 
| 


| ConvertCharacterSet text, characterset, character set, convert 

| Convertesvroavro avro, kite, Cow 

| Convert)SONToAvro json, avro, kite 

[a — 1. Lr unti m 


图 6-8 ”添加 处 理 程序 


(3) 选择 GetTwitter 处 理 程序 ( 如 图 6-9 所 示 ) 并 且 点 击 Add。 该 处 理 程序 用 于 从 Twitter 的 
Gardenhose 中 读 取 数据 。 在 读 取 数据 之 前 ,我们 需要 为 其 添加 一 些 属 性 。 


图 6-9 GetTwitter 处 理 程序 


(4) 右键 点 击 该 处 理 程序 并 且 点 击 Configure， 打 开 配 置 窗口 ， 如 图 6-10 所 示 


= ~ t z Án 
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图 6-10 GetTwitter 处 理 程序 的 配置 窗口 
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(5) 点 击 Properties 选项 卡 并 且 指 定 Consumer Key, Consumer Secret, Access Token, Access 
Token Secret 和 Terms to Filter On 等 参数 。 例 如 ， 将 Terms to Filter On 指定 为 Hadoop ( 如 图 6-11 
Hr ) 


. Processor Details 
Twitter Endpoint » Filter Endpoint - | 
Consumer Key » PaLemhVSadNHP5f13Dx8313k2k 
Consumer Secret bo Sensitive value wet 
Access Token "^  2790087815-LuGAAepdZhD1qobSiFnyOM7KciboflR... 
Access Token Secret bo Sensitive vale set 
Languages T 
Terms to Filter On ! | hadoop 
IDs to Follow Ly 
Locations to Filter On T 


UNM | 


图 6-11 GetTwitter 处 理 程序 的 配置 属性 页 


(6) 现在 ， 添 加 PutHDFS 处 理 程序 ， 并 且 打 开 其 配置 属性 页 ( 如 图 6-12 所 示 )。 你 知 要 指定 
hdfs-site.xml 和 core-site.xml 文件 的 位 置 ， 以 及 你 要 存放 推 文 的 HDFS 目录 。 


Configure Processor 


py 
Eh 


9 Properties | 4 


| Property LET 


Hadoop Configuration Resources T fetc/hadoop/conf/háfs-site.xmi, etc/hadoop/conf/core-si... 
Kerberos Principal » MEME, pf pe me 

Kerberos Keytat | No walu 

Conflict Resolution Strategy » fall 

Block Size j 

10 Butter Size y 

Replication y 

Permissions unmask 7 

Ruermiote Quan , 


DT DUBIUM, errore mom rmm mmm st meme mero ne eR AE o 


图 6-12 PutHDFS 处 理 程序 的 属性 
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(7) 当 你 添加 了 两 个 处 理 程序 之 后 ， 应 该 会 得 到 如 图 6-13 所 示 的 界面 。 


图 6-13 ”两 个 没有 关联 关系 的 Apache NiFi 处 理 程序 


(8) 我 们 需要 在 这 两 个 处 理 程序 之 间 添 加 关联 关系 。 点 击 GetTwitter 处 理 程序 的 中 部 并 且 问 
PutHDFS 处 理 程序 拖 动 。 你 将 看 到 这 两 个 处 理 程序 之 间 出 现 了 一 条 绿色 的 虚线 ， 而 且 打 开 了 
Create Connection 窗口 ( 如 图 6-14 所 示 ). 


图 6-14 Create Connection 窗口 


(9) 点 击 Add 按钮 添加 这 个 连接 ， 
(10) 如 图 6-15 所 示 ， 我 们 现在 已 经 有 了 一 个 简单 的 数据 流程 ， 它 可 以 从 Twitter 旋 取 推 文 并 
且 将 它们 写 人 HDFS。 点 击 工具 栏 中 绿色 的 Play 按钮 启动 数据 流程 ， 并 且 将 推 文 写 人 HDFS 
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图 6-15 ”一 个 简单 的 数据 流程 示例 
(11) 我 们 可 以 验证 HDFS 中 的 数据 ， 如 下 所 示 。 


[root@sandbox ~|# hadoop fs -ls /tweets/raw | wc -1 
20574 

[rootüsandbox ~]# hadoop fs -ls /tweets/raw | head -10 
Found 20573 items 


-IW-r--r-- 1 root hdfs 13929 2016-05-18 09:47 /tweets/raw/10005654822649. json 
-Yw-r--r-- 1 root hdfs 2287 2016-05-18 09:47 /tweets/raw/10006656905343. json 
IW-OI--I-- 1 root hdfs 2528 2016-02-08 11:05 /tweets/raw/10011382997542. json 
-IW-r--r-- 1 root hdfs 6469 2016-01-31 08:33 /tweets/raw/10018657101686. json 
-IWw-r--I-- 1 root hdfs 5254 2016-01-31 08:33 /tweets/raw/10021683146427. json 
-rWw-r--r-- 1 root hdfs 9242 2016-05-18 09:48 /tweets/raw/10024390262882.json 
-IW-Ir--r-- 1 root hdfs 2580 2016-01-31 08:33 /tweets/raw/10026695152597. json 
-Yw-r--Y-- 1 root hdfs 6254 2016-01-31 08:33 /tweets/raw/10029702254017.json 
-rw-r--r-- 1 root hdfs 7410 2016-01-31 08:33 /tweets/raw/10029707961511. json 


[root@sandbox ~|# 


6.3 FA Hive 访问 数据 


现在 ,你 应 该 熟悉 了 可 以 将 数据 装载 到 Hadoop 中 的 各 种 工具 。 这 些 工 具 中 的 大 多 数 以 HDFS 
文件 的 形式 存储 数据 。 将 数据 装载 到 HDFS 中 并 不 能 使 之 自动 地 被 Hive 访问 。Hive 依赖 于 表 定 
义 来 访问 来 自 HDFS 的 底层 数据 ， 而 表 定 义 存储 在 Hive Metastore 中 。 让 我 们 看 看 如 何 使 HDFS 
中 存储 的 数据 对 Hive 可 用 。 


6.3.1 外 部 表 


外 部 表 的 元 数据 存储 在 Hive Metastore 中 ,但 外 部 表 无 法 完全 控制 底层 数据 。 外 部 表 的 数据 

都 存储 在 HDFS 中 , 但 它 可 以 位 于 任何 目录 下 。 当 你 删除 外 部 表 时 ， 底层 数据 并 不 会 从 HDFS 中 

删除 。 | | 
当 你 需要 经 常 在 HDFS 的 某 个 目录 下 获取 相似 类 型 的 文件 时 , 这 些 表 非 常 有 用 。 只 要 底层 数 
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据 具 有 相同 的 格式 , 当 你 查询 外 部 表 时 , 就 会 从 HDFS 中 的 文件 获取 最 新 数据 , 在 大 多 数 示 例 中 ， 

我 们 将 数据 复制 到 HDFS 中 ， 在 这 些 文件 之 上 创建 一 个 外 部 表 ， 可 使 这 些 数据 对 Hive 可 用 。 
现在 ， 使 用 下 面 的 命令 创建 一 个 名 为 TEST3 的 表 ， 这 用 到 了 我 们 在 前 面 的 例子 中 已 装载 到 

HDFS 的 一 个 文本 文件 。 


drop table test3; 
create external table test3(id INT, age INT) 
row format delimited 
fields terminated by ',' 
lines terminated by '^n' 
stored as textfile 
'/user/root/TEST3'; 


location 
0: jdbc: 
jdbc: 
jdbc: 
jdbc: 
jdbc: 
: jdbc: 
No rows 
0: jdbc: 
INFO 
INFO 


oo oe © 


INFO 


hive2: 
hive2: 
hive2: 
hive2 
hive2: 
hive2: 


/ / localhost: 
/ /localhost: 
/ /localhost: 
://localhost: 
/ /localhost: 
/ / localhost: 
affected (2.029 seconds) 


10000/default» 
10000/default» 
10000/default» fields t 
10000/default» lines te 
10000/default» stored a 
10000/default» location 


erminated by ',' 

rminated by ‘\n' 

s textfile 
'/user/root/TEST3' ; 


hive2://localhost:10000/default> select count(*) from TEST3; 


: Status: 


application 1465942169140 0016) 


INFO 
INFO 


| 32770 
+ "nam em a> d» db up 


: Map 
: Map 


-+--+ 


- A 
0/1 
0(41)/1 


Eb d 


1/1 
1/1 


Reducer 
Reducer 
Reducer 
Reducer 
Reducer 
Reducer 


1 row selected (13.368 seconds) 
0: jdbc:hive2://localhost:10000/default» 


6.3.2 LOAD DATA 语句 


如 果 要 将 数据 复制 到 Hive 中 已 有 的 表 定 义 ， 可 以 使 用 LOAD DATA 语句 。 


N NO hNJ h2 HK KN 


0/1 
0/1 
0/1 
0/1 
0(41)/1 
1/1 


: Tez session hasn't been created yet. Opening session 


Running (Executing on YARN cluster with App id 


是 文件 层 的 一 种 复制 /移动 操作 。 下 面 是 LOAD DATA 命令 的 语法 。 


LOAD DATA INPATH 'filepath' 


"4 BUT LOAD DATA 命令 


create external table test3(id INT, age INT) 
row format delimited 


LOAD DATA 语句 仅仅 


[OVERWRITE] INTO TABLE tablename [PARTITION clause]; 


时 ,存储 在 位 lepath 中 的 文件 被 复制 到 目标 表 的 表 定 义 中 指定 的 目录 。 
首先 创建 一 个 TEST4 表 ， 然 后 使 用 LOAD DATA 命令 


加 载 该 文件 。 
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0: jdbc:hive2://localhost:10000/default> CREATE TABLE TEST4(id INT, age INT) STORED AS 
TEXTFILE LOCATION '/tmp/root/TEST4' ; 

No rows affected (1.974 seconds) 

0: jdbc:hive2://localhost:10000/default> LOAD DATA INPATH '/user/root/TEST3/test.csv' into 
TABLE TEST4; 

INFO : Loading data to table default.test4 from hdfs://sandbox.hortonworks.com:8020/user/ 
root/TEST3/test.csv 

INFO : Table default.test4 stats: [numFiles=0, numRows=0, totalSize-0, rawDataSize=0 | 

No rows affected (2.412 seconds) 

0: jdbc:hive2://localhost:10000/default> SELECT COUNT(*) FROM TEST4; 

INFO : Session is already open 

INFO : Tez session was closed. Reopening... 

INFO : Session re-established. 

INFO : 


INFO : Status: Running (Executing on YARN cluster with App id 
application 1465942169140 0017) 


INFO : Map 1: -/- Reducer 2: 0/1 
INFO : Map 1: 0/1 Reducer 2: 0/1 
INFO : Map 1: O(+1)/1 Reducer 2: 0/1 
INFO : Map 1: 1/1 Reducer 2: 0/1 
INFO : Map 1: 1/1 Reducer 2: 0(+1)/1 
INFO Map 1: 1/1 Reducer 2: 1/1 
+-------- +--+ 

| co | 

+-------- +--+ 

| 32770 | 

+-------- +--+ 


1 row selected (12.613 seconds) 
0: jdbc:hive2://localhost:10000/default> 


6.4 在 Hive 中 装载 增 量 变更 数据 


将 数据 装载 到 Hadoop 中 是 一 项 连续 性 的 任务 。 当 你 装载 了 大 量 来 自 某 一 源 系 统 的 数据 之 后 ， 
可 以 以 常规 批 处 理 的 形式 进行 更 改 。 对 于 Hive 而 言 ， 这 个 过 程 就 是 以 增 量 文件 的 形式 引入 新 数 
据 并 且 为 该 表 添 加 新 分 区 。 但 是 ， 你 不 能 修改 现 有 分 区 中 的 数据 。 作 为 Stinger.next 倡议 的 一 部 
分 , 本 社区 将 为 Hive 增 加 ACID 功能 。 对 于 像 插 入 和 更 新 这 样 的 核心 功能 , 我 们 还 有 一 组 流 API, 
ENT ICV SIE EER A $ Hive 的 表 中 。 
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Hive 的 流 API 主要 作为 Hive Bolt Ej Storm 一 起 使 用 。 它 将 一 个 数据 流 分 解 成 若干 更 小 批量 
的 数据 。 到 达 的 数据 可 以 连续 以 小 批量 记录 的 形式 提交 到 已 有 Hive 分 区 或 表 中 。 当 数据 被 提交 
后 ， 马 上 对 此 后 发 起 的 所 有 Hive 查询 可 见 。 如 前 所 述 ， 这 种 流 式 功能 是 基于 插入 和 更 新 支持 的 。 
Hive jit API 目前 还 存在 一 些 限制 。 
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O 目标 表 必 须 进 行 分 桶 处 理 。 | 

Q 流 API 只 支持 含有 分 隔 符 的 流 式 输入 数据 ( 如 CSV, Tab 分 隔 符 等 A ISON ( 严格 语法 ) 
格式 的 数据 。 

O 目标 表 必须 以 ORC 格式 存储 。 

Q 你 必须 设置 如 下 所 需 参数 以 文 持 ACID 功能 。 
m hive.txn.manager = org.apache.hadoop.hive.ql.lockmgr.DbTxnManager 
m hive.compactor.initiator.on - true 
m hive.compactor.worker.threads » O 


KIRE, Hive 流 处 理 的 实现 需要 用 Java 编写 的 Storm Bolt， 这 一 内 容 超 出 了 本 书 的 范畴 ， 
6.6 ^£ 


在 本 草 中 ,我 们 研究 了 将 数据 装载 到 Hive 中 的 各 种 情况 。 大 多 数 情 况 下 , 在 Hive 中 装载 数 
据 是 一 个 两 阶段 的 过 程 。 所 有 数据 首先 被 摄取 到 HDFS， 然 后 其 元 数据 被 添加 到 Hive Metastore 
中 。 用 于 将 数据 摄取 到 HDFS 中 的 工具 有 很 多 种 ,它们 都 是 针对 不 同 用 例 构建 的 。 现 在 ，Apache 
NiFi 通 常 被 用 来 摄取 几乎 所 有 类 型 的 数据 。 它 开 箱 即 用 的 独特 功能 ( 例如 来 源 、 安 全 性 和 易于 管 
理 等 方面 ) 使 它 成 为 非常 适合 企业 将 数据 摄取 到 Hadoop 数据 湖 的 一 种 工具 。 现 在 ， 越 来 越 多 的 
公司 使 用 Hadoop 来 构建 实时 处 理 用 例 ， 而 这 样 的 用 例 通常 需要 从 作业 系统 连续 摄取 数据 。 尽 管 
Hive 流 处 理 尚未 完全 准备 好 进入 生产 环境 ,但 是 仍然 可 以 通过 Hive ACID 来 提供 这 一 功能 。 一 
些 RDBMS 供应 商 还 创建 了 面向 变化 数据 捕捉 (Change Data Capture, CDC ) 技术 ( 如 Oracle 
GoldenGate, Attunity 等 ) 的 插件 ， 以 便 将 持续 的 变更 加 载 到 Hive 表 中 。 然 而 ， 要 实现 变更 的 实 
时 访问 和 生效 ， 在 这 一 领域 还 有 很 多 工作 需要 做 。 


JI 
p 
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no 
5 i ^ 
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如 未 没有 查询 数据 的 能 力 ，Hive 将 不 会 成 为 有 用 的 数据 仓库 工具 。 幸 运 的 是 ，Hive 用 例 的 
核心 基础 是 查询 和 提供 大 规模 schema-on-read 功能 。 强 大 的 Hive 提供 了 转换 多 种 数据 格式 的 能 
力 ， 以 及 为 满足 独特 业务 需求 而 定制 转换 的 能 力 。Hive 可 以 适应 你 的 数据 格式 ， 而 不 是 相反 。 这 
是 数据 驱动 型 组 织 的 核心 基础 。 

如 前 所 述 ，Hive 可 以 通过 HCatalog 实现 此 功能 ， 不 过 这 也 可 以 通过 特有 的 存储 和 装载 功能 
实现 。 如 末 你 已 经 精通 现 有 的 查询 语言 ， 那 么 将 会 发 现 Hive 中 的 许多 部 分 都 很 熟悉 ， 不 过 你 也 
会 发 现 它 对 传统 RDBMS 提供 的 查询 功能 和 模式 进行 了 扩展 ， 与 之 存在 一 些 细微 差别 。 

Hadoop 这 个 广 受 关注 的 平台 通常 把 数据 区 分 为 结构 化 的 、 半 结构 化 的 和 非 结构 化 的 。 结 构 
化 数据 通常 是 指 用 行 和 列表 示 的 数据 。 这 是 数据 分 析 师 最 熟悉 的 , 尤其 是 那些 与 传统 的 事务 处 理 
系统 ( 如 销售 点 或 库存 管理 ) 打交道 的 专业 人 士 。 半 结构 化 数据 通常 是 介 于 列 和 行 之 间 的 一 种 数 
据 ， 它 可 能 是 一 些 更 奇特 的 东西 ， 比 如 键 / 值 对 、 数 组 或 钥 套 数据 。 对 于 这 类 数据 而 言 ， 可 能 
据 结 构 中 列 的 数目 是 动态 的 ,抑或 可 能 一 列 有 多 个 值 。 这些 数据 很 像 传统 数据 , 但 其 表现 形式 大 
不 相同 。 这 类 数据 的 例子 有 XML. HL7 和 ISON 等 。 这 里 给 出 一 个 用 ISON 文件 表示 的 真实 推 
X ( 文件 太 长 ， 不 能 完整 显示 ， 所 以 给 出 的 是 一 个 精简 版 本 ). 

{ 

"created at": "Wed Sep 23 01:19:54 +0000 2015", 
"id": 646494164109029400, 
"id str": "646494164109029376", 
"text": "GQStarksAndSparks V"I'm not!\" He laughs and shrugs. \"I'm all bone. V"", 
"source": "<a href=\"http://twitter.com/download/iphone\" rel=\"nofollow\">Twitter for 
iPhone</a>", 
"truncated": false, 
"in reply to status id": 646222681067622400, 
"in reply to status id str": "646222681067622400", 
"in reply to user id": 3225146093, 
"in reply to user id str": "3225146093", 
"in reply to screen name": "StarksAndSparks", 
"user": { 
"id": 3526755197, 
"id str": "3526755197", 
"name": "smoll steve", 


"screen name": "hellatinysteve", 
"locstiom : 7^, 
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"url": null, 
"description": "like a chihuahua who thinks he's a pitbull. did someone say napoleon 
complex?", 
"protected": false, 
"verified": false, 
"followers count": 117, 
"friends count": 56, 
"listed count": 3, 
"favourites count": 155, 
"statuses count": 1831, 
"created at": "Wed Sep 02 20:26:36 40000 2015", 
"utc offset": null, 
"time zone": null, 
"geo enabled": true, 
"lang': "en", 
"contributors enabled": false, 
"is translator": false, 
"profile background color": "CODEED", 
"profile background image url": "http://abs.twimg.com/images/themes/theme1/bg.png", 
"profile background image url https": "https://abs.twimg.com/images/themes/theme1/bg.png", 
"profile background tile": false, 
"profile link color": "008484", 
"profile sidebar border color": "CODEED", 
"profile sidebar fill color": "DDEEF6", 
"profile text color": "333333', 
"profile use background image": true, 
"profile image url": "http://pbs.twimg.com/profile images/639178684478394368/0f3yigOF _ 
normal.jpg", 
"profile image url https": "https://pbs.twimg.com/profile images/639178684478394368/ 
Of3yigOF normal.jpg", | 
"profile banner url": "https://pbs.twimg.com/profile banners/3526755197/1441227570", 
"default profile": true, 
"default profile image": false, 
"following": null, 
"follow request sent": null, 
"notifications": null 
}, 
"geo": null, 
"coordinates": null, 
"place": null, 
"contributors": null, 
"retweet_count": 0, 
"favorite count": O, 
"entities": ( 
"hashtags": [], 
"trends": [], 
“Oris” s I1, 
"user mentions": [ 
{ 
"Screen name": "StarksAndSparks", 
"name": "Tony Stark.", 
"id": 3225146093, 
"id str": "3225146093", 
"indices": [ 
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0, 
16 
| 
} 


ls 
"symbols": [ | 


"favorited": false, 
"retweeted": false, 
"possibly sensitive": false, 
"filter level": "low", 
"lang": "en", 


下 如 你 所 看 到 的 ,每 条 推 文 都 有 大 量 的 信息 。Hadoop 的 强大 之 处 就 在 于 ,， 它 可 以 像 在 任何 文 
件 系统 中 那样 存储 像 JSON 推 文 这 样 的 原始 文件 ， 而 之 后 又 可 以 使 用 Hive 在 该 目录 上 创建 一 个 模 
sk, 使 你 可 以 查询 该 原始 数据 的 各 个 属性 。 你 可 以 存储 所 有 数据 , 但 只 需要 查询 自己 所 需 的 数据 。 

对 于 半 结 构 化 数据 ， 还 可 以 联想 到 系统 日 志 或 应 用 程序 的 事件 日 志文 件 等 。 最 后 ， 以 图 像 、 
OCR, PDF 或 空间 数据 等 形式 存在 的 数据 则 是 非 结 构 化 数据 。 非 结构 化 数据 是 复杂 的 数据 ， 可 能 
其 结构 无 法 用 列 、 行 或 数组 来 描述 ， 而 是 以 字 节 模式 存放 的 , 例如 互联 网 上 一 幅 猫 的 图 像 或 者 一 
根 肋骨 的 X 射线 图 像 。 事 实 上 ,没有 数据 是 没有 模式 的 。 关 键 在 于 用 于 发 现 模式 的 算法 。 诚 然 ， 
数据 的 模式 可 能 会 在 摄取 数据 的 时 候 被 改变 , 也 可 能 并 不 容易 被 发 现 , 但 是 所 有 的 数据 都 是 有 模 
式 的 , 需要 由 开发 人 员 使 用 自己 可 掌控 的 各 种 工具 来 收集 这 些 模式 ， 而 分 析 这 些 数据 的 工具 也 需 
过 具有 一 定 的 灵活 性 ， 以 便 适 应 各 种 潜在 的 模式 。 

本 章 主 要 关注 半 结 构 化 数据 ， 以 及 如 何在 Hive 中 利用 这 些 数据 进行 制 表 和 分 析 。 我 们 将 剖 
析 一 些 实际 的 数据 ， 如 点 击 流 数据 、JSON 数据 和 服务 器 日 志 数 据 。 学 完 本 章 ， 你 应 该 掌握 如 何 
在 这 些 数 据 上 使 用 和 创建 模式 ， 并 且 理 解 在 Hive 中 扩张 数据 要 用 到 的 摄 入 工具 和 转换 工具 。 


7.1 mix A 
常见 的 用 例 之 一 就 是 利用 点 击 流 数据 来 分 析 和 预测 客户 行为 。 你 可 以 通过 这 些 数据 回答 下 述 


问题 

口 哪个 页 面 最 党 欢迎 ? 

O 大 多 数 用 户 从 哪个 页 面 离开 ? 

a 用 户 在 某 个 特定 页 面 上 停留 的 时 间 比 在 其 他 页 面 上 长 吗 ? 

O Ac HESSERU IET AT 

作为 业务 人 员 ， 你 可 以 使 用 这 些 问题 的 答案 来 帮助 推广 某 些 项 目 , 或 定制 你 的 Web 页 面 以 适 
应 行为 模式 。 此 外 ， 如 果 你 能 够 实时 捕获 这 些 数 据 ， 就 能 够 立即 得 到 反馈 ， 并且 在 必要 之 时 进行 
EE. 市场 营销 部 门 和 内 容 创 作者 也 可 以 得 到 关于 变化 情况 和 促销 情况 的 即时 反馈 , 并 且 近 实时 
地 做 出 反应 。 将 这 些 数据 存储 在 HDFS 中 ,通过 Hive 进行 查询 ， 也 可 以 提供 预报 趋势 分 析 和 预 
测 分 析 。 
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,从 来 都 不 缺 可 用 的 点 击 流 工 具 ， 而 其 中 许多 工具 都 是 基于 云 计算 的 ， 例 如 Google Analytics 
使 用 这 样 的 工具 ， 可 以 通过 预 置 的 图 表 来 收集 数据 和 查看 结果 。Hive+HDFS 这 样 的 选项 使 你 能 
够 拥有 属于 自己 的 数据 , 并 且 还 能 使 用 内 部 产品 或 销售 数据 等 内 部 数据 来 丰 军 这 些 数 据 。 我 们 将 
看 到 ， 数 据 摄取 、 存 储 和 可 视 化 方面 的 工作 相对 容易 ， 这 是 许多 公司 在 开始 其 Hadoop 之 旅 时 部 
要 着 手 干 的 事情 。 

点 击 流 数据 通常 以 日 志文 件 的 形式 存储 在 Web 服务 需 的 目录 下 。 摄取 这 些 文 件 最 常见 的 方法 
是 利用 Apache Flume 或 Apache NiFi 这 样 的 工具 。 安 装 和 配置 Apache Flume CAEH RREN 
范畴 ， 因 此 我 们 将 主要 关注 手动 将 日 志 复 制 到 HDFS。 本 示例 将 使 用 原始 的 Wikipedia 点 击 流 数 
Hi. 你 可 以 通过 网 址 https://figshare.com/articles/Wikipedia_ Clickstream/1305770 下 载 效 据 。 有 多 个 
数据 集 ， 无 论 选择 哪个 都 可 以 ， 选 择 所 有 数据 集 也 可 以 。 
注意 Apache Flume 是 一 种 将 运行 日 志文 件 摄 取 到 HDFS 的 常用 方法 ,Flume 以 Agent 方 式 运行 ， 
而 且 在 其 中 可 以 创建 用 于 上 日志 处 理 的 源 。 你 可 以 有 多 条 熔 道 ， 它 们 既 可 用 于 执行 处 理 ， 
也 可 作为 多 个 保证 交付 的 Agent。 谷 了解 更 多 信息 ， 请 访问 Apache Flume 网 站 。 


Wikipedia 的 数据 包含 了 2015 年 1 月 的 网 站 流量 。 数 据 主要 聚焦 于 页 面 引用 ， 即 当前 用 户 所 
在 的 页 面 和 用 户 将 要 访问 的 页 面 。 页 面 引用 可 以 使 用 搜索 引擎 或 者 点 击 页 面 上 的 链接 来 实现 。 让 
我 们 看 其 中 一 个 数据 集 的 样 例 。 


1758827 2516600 154 !Kung people 
22980 2516600 74 Phoneme 
2516600 20 other 
261237 2516600 21 The Gods Must Be Crazy 
247700 2516600 12 Xu_ language 


!Kung language 
!Kung language 
IKung language 
IKung language 
!Kung language 


2516600 29 other-wikipedia !Kung language 
1383618 2516600 33 Mama_and_papa !Kung language 
7863678 2516600 12 List of endangered languages in Africa !Kung language 
524854 2516600 20 Alveolar clicks !Kung language 
34314219 2516600 11 Ekoka_!Kung !Kung language 
27164415 2516600 100 Contents of the Voyager Golden Record !Kung language 
524853 2516600 21 Palatal nasal !Kung language 


17333 2516600 45 Khoisan languages 
713020 2516600 56 Jul'hoan dialect 
29988427 300 other-empty 
29988427 93 other-google 
29988427 24 other-wikipedia 
420777 29988427 14 Zeitgeist Films 
6814223 29988427 23 Lynn Hershman Leeson 
1686995 29988427 27 Carrie Brownstein 


!Kung language 

!Kung language 

!Women Art Revolution 
!Women Art Revolution 
!Women Art Revolution 
!Women Art Revolution 
!Women Art Revolution 
!Women Art Revolution 


64486 650 other-empty ! (disambiguation) 
64486 226 other-google ! (disambiguation) 
64486 23 other-wikipedia ! (disambiguation) 
600744 64486 14 II! ! (disambiguation) 


7712754 64486 237 Exclamation mark ! (disambiguation) 
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该 完整 数据 集 包 含 2200 万 篇 参 引 文章 对 , 但 这 还 只 是 对 1 月份 40 亿 次 请 求 进行 抽样 的 结果 ! 
该 数据 集 有 6 个 字段 。 

" pet id: 如 果 参 引 位 置 并 未 对 应 英语 版 Wikipedia 主 命名 空间 中 的 某 篇 文章 , 则 其 取 值 为 

;和 否则， 该 取 值 中 含有 与 参 引 位 置 相对 应 的 文 草 的 唯一 MediaWiki 页 ID ， 也 就 是 客户 
— 上 一 篇 文章 。 

O curr id: 客户 端 所 请 求 的 文章 的 唯一 MediaWiki 页 ID. 

Dn:( 参 引 位 置 ， 资 源 ) 对 所 出 现 的 次 数 。 

O prev title: 将 参 引 位 置 的 URL 映射 到 前 述 固定 值 集 所 得 到 的 结果 。 

O curr title: 客户 端 所 请 求 的 文 草 标 题 。 

ü type: 

m 如 果 参 引 方 和 请 求 方 都 是 文章 页 且 参 引 方 链接 到 请 求 方 ， 则 为 link 型 ; 

e 如 果 参 引 方 是 一 篇 文 草 并 且 链 接 到 请 求 方 ， 但 是 请 求 方 并 不 在 enwiki.page RKP, WA 
redlink 型 ; 

m 如 果 参 引 方 和 请 求 方 都 是 文章 , 但 是 参 引 方 并 未 链接 到 请 求 方 , 则 为 other 型 ; 当 客 户 
端 搜索 或 出 现 欺骗 参 引 方 的 行为 时 ， 会 发 生 这 种 情况 。 

如 果 你 注意 一 下 ， 会 发 现 并 非 所 有 字段 都 在 数据 的 每 一 行 中 出 现 ， 在 通过 传统 ETL 处 理 过 
程 来 摄取 数据 时 可 能 会 出 现 这 种 问题 。 本 来 为 NULL 的 数据 仍然 需要 加 以 考虑 , 而 你 的 表 需 要 定 
义 所 有 可 能 字段 ， 而 不 管 这 些 字段 是 否 有 数据 。 在 使 用 HDFS 和 Hive ft, 我们 首先 要 摄取 数据 。 
在 摄取 数据 后 ， 我 们 将 创建 模式 。 这 就 是 schema-on-read 的 价值 所 在 ， 它 的 出 现 使 Hive 数据 仓 
库 开发 比 传统 数据 仓库 开发 更 加 敏捷 。 


7.1.1 摄取 数据 


正如 前 面 提 到 的 , 第 一 步 是 摄取 数据 ,我 们 将 手动 模拟 常见 日 志 流 的 摄取 过 程 。 你 应 该 已 经 
下 载 了 名 称 类 似 于 2015 01 clickstream.tsv.gz 的 压缩 文件 。 如 果 你 只 下 载 一 个 数据 集 , 压缩 文件 
约 为 330MB, 如 果 人 解压 该 文件 , 其 大 小 会 扩张 到 1GB 以 上 。 像 点 击 流 这 样 的 文件 的 压缩 率 很 高 ， 
通常 可 以 超过 70%。 很 有 用 的 一 点 是 ， 当 将 这 些 文件 存储 在 HDFS 时 ， 并 不 需要 解压 。 


警告 ”在 Hadoop 本 地 访问 压缩 文件 时 ， 主 要 针对 GZIP 扩展 名 而 不 是 ZIP 扩展 名 。 如 果 你 尝试 
查询 存储 在 扩展 名 为 .ZIP 的 文件 中 的 数据 ， 只 会 得 到 空 值 。 如 果 你 需要 使 用 .ZIP 文件 ， 
还 可 以 针对 MapReduce InputFormat 打包 一 个 ZIP 文件 阅读 器 


要 开始 摄取 数据 ， 首 先进 入 Ambari 并 在 HDFS 中 创建 一 个 临时 目录 。 我 们 将 在 这 里 上 传 文 
件 ， 然 后 在 Hive 中 创建 一 个 表 。 我 们 可 以 通过 Ambari 的 HDFS 视图 来 完成 此 项 工作 。 图 7-1 展 
如何 进入 HDFS 视图 。 


| YARN Queue Manager — | 
| HOFS Files | 


Hive View 
Pig 
No Data Available Zeppelin 
图 7-1 HDFS 视图 


进入 HDFS 视图 ， 导 航 到 /tmp 目录 下 。 你 可 以 在 任何 地 方 创建 Wiki 点 击 流 数据 日 录 ， 但 是 
为 了 便于 练习 ， 我 们 在 此 使 用 /tmp。 在 /tmp 中 ， 单 击 New directory 创建 一 个 名 为 wikiclickstream 
的 目录 。 图 7-2 显示 了 New directory 选项 。 


ee | d Upload 
[] find (a 
Last Modified Owner Group Permianion Ago Nane = 
2016-03-14 0919 hafs hüdfs KE RE a re 
2016-04-20 09.14 ambari-qa hta AR eR AR d re 0 
2016-04-20 14:49 nifi ms “PORN KY ee 9 


图 7-2 创建 一 个 新 的 目录 


按照 提示 , 你 现在 应 该 可 以 在 /mp 目录 下 看 到 一 个 名 为 wikiclickstream 的 目录 。 单 击 wikiclickstream 
目录 。 我 们 现在 可 以 通过 点 击 Upload 按钮 来 上 传 压 缩 的 点 击 流 数据 ,并且 浏览 之 前 下 载 的 文件 。 


图 7-3 显示 了 Upload 按钮 和 已 下 载 的 文件 。 注 意 ， 


/ry i 
Bii wikiclickstream |^ 
Name w 


dv ^^ 


| 2015 01, clickstroanm.tev.ga 313.3 MB 


查看 。 图 7-4 显示 了 文件 的 内 容 。 


文件 仍然 是 带 有 .GZ 扩展 名 的 压缩 文件 。 


MP New Cüremctony A Upload 


o 
à 
^ Last Modified Owner Group Permission Asc Name 
2016-04-30 13:26 admin hafs PWE ie rn 5 
图 7-3 上 传 一 个 点 击 流 文件 


数据 现在 已 经 装载 到 HDFS 中 。 我们 的 数据 集 很 小 , 这 里 也 可 以 通过 目 动 批 处 理 或 实时 流 处 


FRB TB 大 小 的 文件 。 点 击 该 文件 以 查看 内 容 示 例 。 注 意 ， 


HDFS 会 自动 将 文件 解压 缩 以 供 
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File Preview 
Aimp/wikiciicxstream/2015, 01 chickstream.tsv.gz 


3632097 415 other-empty tt 
3632387? 113 other-9oogle tt 
3632887 33 other-wikipedia !! 


600744 2 other-yahoo nt 

600744 1193 other-google DE 

600744 1065 other-eapty it 
25014178 600744 44 Jerry Fuchs 1:1 
34552784 609744 11 Flight Facilities itt 
4499 600744 21 Band rit 
1446971 608744 14 Gold Standard Laboratories 111 
8526330 600744 70 Myth Takes tt 
1507641 600744 139 LCD Soundsystem !!! 
2064029 600744 31 Out Hud !!! 
26780719 600744 48 List of post-punk revival bands !!! 
39256216 600744 95 Thritter tH 
11184232 600744 35 Tony, Mawk' s, Proving Ground 111 
1327495 600744 11 Sziget Festival !1!! f 
156725 608744 110 Warp. (record, label) htt 
29631 600744 14 Sacramento, California it! 


一 
图 7-4 点 击 流 文件 的 内 容 


剩 下 的 工作 就 是 在 该 文件 上 创建 元 数据 。 从 本 质 上 看 , 我 们 将 构建 一 个 指 回 该 文件 的 视图 或 
虚拟 表 ， 这 样 就 可 以 对 这 些 数据 运行 Hive 查询 了 。 为 此 ， 我们 可 以 创建 表 的 DDL 脚本 ， 并 且 在 
HiveCL 中 运行 它 , 既 可 以 直接 在 HiveCL 中 运行 我 们 的 DDL, 也 可 以 在 Hive 视图 中 执行 该 脚本 。 
对 于 该 数据 ， 我 们 将 使 用 Hive 视图 进行 操作 。 导 航 到 Hive WE, CA HDFS 视图 在 相同 位 置 。 
在 查询 编辑 需 中 ， 执 行 以 下 命令 。 

CREATE DATABASE clickstream; 


图 7-5 显示 了 命令 和 新 创建 的 数据 库 。 你 需要 刷新 Database Explorer 以 查看 clickstream ZX 
据 库 。 


Hive Query Saved Queries History UDFs Upload Table 


default T Worksheet 


| CREATE DATABASE clickstream; 


图 7-5 ”创建 clickstream 数据 库 


当 你 看 到 该 数据 库 时 ， 将 数据 库 从 default 数据 库 更 改 为 clickstream 数据 库 。 可 以 通过 从 
下 拉 菜 单 中 选择 数据 库 ， 或 在 查询 编辑 器 中 执行 以 下 命令 来 实现 。 
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USE clickstream; 


创建 一 个 专门 用 于 点 击 流 数据 的 新 数据 库 有 助 于 我 们 组 织 项 目 。 注 意 ， 在 Hive 中 创建 一 个 
数据 库 是 简单 而 直接 的 。 你 不 需要 分 配 任何 内 存 或 存储 需求 , 也 不 需要 与 数据 库 相 关联 的 文件 或 
设置 。 这 是 因为 ， 对 于 你 在 其 下 创建 的 所 有 表 来 说 ， 该 数据 库 只 是 一 个 元 数据 容 估 。 


7.1.2 创建 模式 
现在 ， 我 们 已 经 创建 了 数据 库 ， 下 面 来 创建 表 。 复 制 并 执行 下 述 脚本 以 生成 wikilogs X. 


CREATE TABLE wikilogs ( 
previous id STRING, 
current id STRING, 
no occurences’ INT, 
previous title STRING, 
current title STRING, 
type STRING) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '09' 
STORED AS textfile; 
对 于 了 解 SQL 的 人 来 说 ， 应 该 很 熟悉 Hive 的 CREATE TABLE iH], SQL 与 Hive 在 CREATE TABLE 
上 的 主要 区 别 在 于 最 后 3 个 命令 ,ROW FORMAT DELIMITED 命令 让 Hive 知道 文件 中 有 一 个 分 隔 字符 ， 
每 个 字段 由 一 个 Tab 字符 ( 09 是 制 表 符 命令 的 ASCII 值 ) 分 隔 。 字 段 几 乎 可 以 用 任何 字符 分 隅 ， 
而 这 一 点 将 在 CREATE TABLE 语句 中 加 以 描述 。STORED AS 命令 告诉 Hive 如 何 存储 文件 。 在 本 例 中 ， 
我 们 将 它 存储 为 最 基本 的 文本 文件 。 在 真实 环境 中 , 可 以 将 数据 存储 为 更 高 效 的 文件 格式 ， 比 如 
ORC 文件 。 关 于 性 能 调 优 的 章节 将 讨论 这 些 文件 格式 。 


7.1.3 ”装载 数据 


下 一 步 是 将 数据 装载 到 Hive 表 中 。 在 将 文件 移动 到 Hive 目录 时 ， 实 际 上 并 没有 效 载 那么 多 
的 数据 。 本 例 中 ,我 们 创建 了 一 个 Hive 受 控 表 ， 这 意味 着 Hive 也 可 以 管理 这 些 数据 ， 如 来 删除 
该 表 ， 同时 也 将 删除 数据 。 我 们 也 可 以 创建 一 个 Hive 外 部 表 ， 并 将 表 指向 HDFS 中 的 某 个 位 置 
对 于 外 部 表 ， 当 表 被 删除 时 ， 并 不 会 删除 数据 。 装 载 数据 很 简单 ， 只 需要 执行 LOAD DATA 语句 

LOAD DATA INPATH '/tmp/wikiclickstream/2015 01 clickstream.tsv.gz' OVERWRITE INTO TABLE 

wikilogs; 

你 一 定 硕 望 将 文件 名 和 目录 路 径 更 改 为 系统 的 正确 路 径 。 关 键 要 理解 LOAD DATA 命令 不 对 数 
据 执行 任何 转换 , 它 只 是 将 数据 复制 到 表 DDL 中 指定 的 位 置 或 默认 位 置 。OVERNRITE 命令 直接 册 
除 与 该 表 关 联 的 所 有 数据 ， 并 且 在 LOAD DATA 命令 中 使 用 新 文件 的 数据 。 如 果 存 在 一 个 相同 名 称 
的 旧 文 件 ， 那 么 新 文件 将 瞧 换 旧 文 件 。 


7.1.4 查询 数据 
执行 LOAD DATA 命令 后 ， 现 在 wikilogs 表 中 有 了 可 用 的 数据 。 我 们 首先 做 点 清理 工作 ， 消 除 
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一 些 不 必要 的 列 。 对 于 我 们 来 说 ,并 不 需要 前 两 列 ， 因 为 它们 都 是 没有 价值 的 页 面 标识 。 对 于 所 
有 用 户 , 我 们 主要 天 注 用 户 所 在 的 页 面 、 他 到 达 的 页 面 ， 以 及 他 此 后 访问 的 次 数 。 我 们 原本 可 以 
定义 没有 列 的 表格 , 但 是 可 能 公司 的 男 一 个 小 组 也 需要 这 些 数 据 。 对 于 我 们 的 小 组 , 我 们 将 创建 
一 个 简单 视 网 来 限制 这 两 列 。 在 查询 编辑 融 窗口 中 执行 以 下 HiveQL 语句 。 


CREATE VIEW wikilogs view (no occurences, previous title, current title) 
AS SELECT no occurences, previous title, current title FROM wikilogs; 


现在 我 们 有 了 一 个 视图 ,可 以 开始 探讨 一 些 关 于 数据 的 问题 了 。 我 们 首先 找到 出 现 次 数 最 多 
的 链接 。 执行 下 述 查 询 , 但 请 记 住 , 由 于 数据 集 规模 大 小 不 同 , 可 能 需要 一 段 时 间 才 能 返回 结果 。 
下 到 现在 ,我 们 还 没有 进行 性 能 调 优 ， 这 是 因为 我 们 在 沙 箱 上 操作 ,还 没有 利用 任何 分 布 式 的 并 
行 处 理 。 

SELECT * FROM wikilogs view 

SORT BY no occurences DESC; 


| 7-6 给 出 了 执行 结 末 。 
Query Process Results (Status: SUCCEEDED) Save resulte... + 


Loga Rew sits 


wikilogs view.no occurences wikilogs view.previous titie wikilogs view.current_title 


473086660 other-empty Main Page 
7956439 other-wikipedia Main Page 
1786211 other-empty Chrome 

1367937 other-empty Flow. control 
1080558 othwr-googie Sri Slime 
747681 other-googie Stephen Hawking 
561499 other 0 

450931 other-googie List of Bollywood fims of 2014 
478855 other-googie Sa (musician) 
417262 other-googie Maddie Zegier 
360853 other-empty Donaid Arthur 
229751 other-googie interstelar (fim) 
317584 other-googie Baby (2015. fim) 
304776 other-googie Ariana. Grande 
29894! other-googie Sauropoda 


图 7-6 按照 no occurences 排序 的 结果 


效 据 告诉 我 们 ， 到 目前 为 止 最 和 常 出 现 的 链接 是 Wiki 主页 。 这 对 于 探究 数据 的 本 质 是 有 意义 
I). previous title 字段 包括 篆 见 的 搜索 源 ， 它 可 以 帮助 我 们 确定 人 们 在 Wikipedia 中 使 用 最 多 


的 搜索 工具 。 这 些 值 的 定义 如 下 。 


O 位 于 英文 版 Wikipedia 主 命名 空间 中 的 文章 > 文章 标题 
O 不 在 英文 版 Wikipedia 主 命名 空间 中 的 Wikipedia 页 面 >other-wikipedia 
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O 空 参 5|>other-empty 


OQ 来 自 其 他 Wikimedia 项 目的 页 面 >other-internal 


DQ Google > other-google 

D Yahoo > other-yahoo 

ü Bing >other-bing 

Q Facebook > other-facebook 
L] Twitter > other-twitter 

Q 其 他 > Other-Other 


基于 这 些 值 ， 我 们 可 以 回答 如 “Facebook 上 链接 频次 最 高 的 Wiki 页 面 是 什么 ? ”之 类 的 问 


题 。 让 我 们 通过 执行 以 下 SQL 语句 来 寻找 答案 。 
SELECT * FROM wikilogs view 


WHERE previous title = 'other-facebook' 
SORT BY no_occurences DESC; 


图 7-7 展示 了 查询 结 
Query Process Results (Status: SUCCEEDED) 


Logs Results 


wikilogs view.no occurences  wikilogs view.previous titie 


12011 other-facebook 
7105 other-facebook 
7076 other-facetyook 
4207 other-facebook 
3936 other-facebook 
3835 other-facebook 
3042 other-facebook 
2314 other-facebook 
2294 other-facebook 
2179 other-facebook 
2107 other-facebook 
2105 other-facebook 
2034 other-facebook 


Save results... + 


Joyce Vincent 


图 7-7 Facebook 上 排名 徘 前 的 链接 


前 3 个 链接 是 Cassiel, 3000 mile myth 和 John Paul DeJoria. 基于 这 样 的 数据 ,我 们 很 难 推 


测 为 什么 Facebook 上 的 这 些 链 接 会 在 2015 年 1 月份 如 此 流行 ， 


但 是 通过 涤 入 研 


M NM 


一 阶段 的 其 


他 数据 , 可 以 进一步 确定 为 什么 排名 第 一 的 快照 的 出 现 次 数 明显 高 于 它 之 后 的 两 个 。 通 过 其 他 数 
据 可 以 帮助 我 们 发 现 有 关 个 人 Facebook 帖子 的 细节 , 这 包括 来 自 Google 或 Twitter 等 数据 源 的 数 
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据 ， 以 及 地 理 数据 等 。 

当然 ， 你 所 处 行业 里 的 点 击 流 数 据 可 能 包含 比 这 里 给 出 的 Wikipedia 示例 多 得 多 的 字段 ， 但 
是 摄 入 、 存 储 和 查询 过 程 是 一 样 的 。 许 多 公司 都 会 用 到 点 击 流 数据 ,将 其 与 内 部 的 营销 数据 加 以 
整合 , 进而 定制 广告 投放 或 战略 推广 服务 。 另 一 个 用 例 是 加 入 来 自 应 用 程序 服务 器 的 系统 日 志 数 
据 ， 这 样 运营 团队 就 可 以 更 好 地 识别 应 用 程序 或 硬件 故障 导致 的 Web 页 面 错误 。 能 够 以 更 快 的 速 
度 存 储 更 多 数据 ,为 预先 进行 高 效 而 主动 的 维护 打开 了 大 门 ,同时 也 驱动 获得 更 快 且 性 价 比 更 高 
的 商业 决策 。 


7.2 摄取 JSON 数据 


本 天 将 快速 介绍 一 种 更 复杂 的 数据 类 型 。 我 们 要 摄取 ISON 数据 ， 这 是 众所周知 的 Twitter 数 
HIL JSON (JavaScript 对 象 表示 法 ) 是 传输 应 用 程序 数据 时 使 用 最 广泛 的 格式 之 一 。 它 是 一 
ee 类 似 于 XML. 5 XML 一 样 ， 它 也 基于 属性 / 值 对 。 该 值 几 乎 可 以 是 任何 内 

， 包 括 单个 元 素 、 长 文本 ， EERON JSON BEnfPA ES, tHe PUE Ss E, m 
te 于 标准 ETL 过 程 来 说 可 能 会 引发 问题 。JSON 的 流行 导致 出 现 了 大 量 读 取 和 解析 ISON 数据 
的 应 用 程序 和 编程 语言 。 _ 些 数据 流程 产品 甚至 会 在 所 有 摄 和 人 数据 进入 HDFS 或 NoSQL 数据 库 
Zi, FEAR ISON 格式 。 


注意 ”要 了 解 更 高 级 并 且 更 有 趣 的 Twitter 简讯 示例 ， 推 荐 阅读 使 用 Apache NiFi 连接 Twitter 
Garden Hose 的 教程 。 推 文 被 发 送 到 NiFi， 并 被 推送 到 一 个 Solr Banana 仪表 盘 ， 然 后 再 
进入 HDFS 进行 长 期 存储 。 所 有 工作 可 以 在 一 小 时 内 完成 。 通 过 链接 ttps://community. 
hortonworks.com/content/kbentry/1282/sample-hdfnifi-flow-to-push-tweets-into-solrbanana.html , 
可 以 找到 所 有 关于 Hortonworks Community Connection 的 指令 . 


本 草 中 使 用 的 例子 包括 : 摄 人 随机 ISON 文件 ， 然 后 在 Hive 中 构建 一 个 表 ， 这 样 就 可 以 查 
漳 数 据 了 。 摄 和 人 阶段 很 和 测 单 , 但 在 构建 表 和 查询 数据 时 还 需要 考虑 一 些 事情 。 我 们 所 做 的 决策 将 
影响 查询 性 能 。 我 们 将 通过 该 示例 讨论 所 有 可 能 选项 

我 们 做 任何 事情 都 需要 数据 。 幸而 , 获取 ISON 数据 很 简单 。 我们 在 本 例 中 采用 了 http:Wjson- 
generator.com 上 的 JSON 生成 希 。 该 网 站 为 你 上 传 的 任何 ISON 模板 随机 创建 数据 。 为 了 简单 起 
见 ， 我 们 将 使 用 默认 模板 。 当 你 生成 数据 时 ， 它 将 创建 一 个 由 多 个 ISON 元 素 构 成 的 列表 。 每 个 
元 条 (或 块 ) 都 以 _id 开头 ,我 们 继续 行动 ,将 它们 划分 到 不 同 的 ISON 文件 中 , 分 别 命名 为 jsonl 、 
json2 和 json3. jsonl 的 内 容 如 下 。 


{ 
"id": "57742454381862f0b8121f41", 
"index": 5, 
"guid": "580ff472-9036-40b2-aa3c-9085f305d6b4" , 
"isActive": false, 
"balance": "$2,252.98", 
"picture": "http://placehold.it/32x32", 
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"age": 36, 
"eyeColor": "brown", 
"name": { 
"first": "Lori; 
"last": "Pacheco" 
h 


"company": "LUDAK", 
"email": "“lori.pacheco@ludak.net", 
"phone": "+1 (891) 415-2253", 
"address": "290 Rochester Avenue, Cannondale, Guam, 7856", 
"about": "Qui fugiat nostrud qui laborum Lorem excepteur. Minim exercitation esse mollit 
irure fugiat eiusmod proident sit Lorem incididunt. Dolor ex ipsum tempor est eu duis 
exercitation. Enim ea ullamco mollit proident labore eiusmod excepteur magna Lorem anim.", 
"registered": "Tuesday, February 10, 2015 8:07 AM", 
"latitude": "75.805649", 
"longitude": "138.091539", 
"tags": | 
"ullamco", 
INT. 
"voluptate", 
"reprehenderit", 
"sunt" 
|, 


"range": [ 


]， 
"friends": [ 
{ 
ng Nae 0, 
"name": "Byrd Meyers" 


"dar m 
"name": "Weeks Miles" 


"Ad v 2, 
"name": "Marquez Pace" 
} 
] 


reeting": "Hello, Lori! You have 6 unread messages.", 
"favoriteFruit": "banana" 


} 
注意 , 诸如 name, friends 和 range 等 内 容 的 值 都 为 列表 或 元 素数 组 。 正 是 这 种 灵活 的 结构 使 
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得 JSON 如 此 强大 ， 却 又 难以 进入 关系 系统 。 关 系 系统 也 在 为 查询 这 种 类 型 的 数据 而 不 懈 努 力 ， 
而 且 关 系 系统 很 难 针对 这 种 数据 进行 性 能 调 优 。 考虑 到 HDFS 是 一 个 文件 系统 ,至 少 就 本 书 而 言 
数据 摄取 并 不 那么 重要 ， 因 为 我 们 不 需要 任何 实时 或 自动 化 的 过 程 。 


注意 在 创建 用 于 查询 用 途 的 JSON 数据 时 ， 最 好 确保 从 文件 中 删除 所 有 不 必要 的 字符 数据 ， 
并 且 正 确 形成 ISON 模式 。 正如 前 面 所 提 到 的 , 我 们 发 现 使 用 ISON 生成 器 有 助 于 生成 随 
机 ISON 数据 , 之 后 可 将 生成 的 ISON 数据 粘贴 到 ISON 编辑 器 中 ,进行 格式 验证 和 “ 扁 
平 化 ”处 理 。 在 http://jsoneditoronline.org/ 上 可 以 找到 一 个 很 好 的 在 线 编辑 器 。 


就 像 点 击 流 数据 一 样 ， 我们 将 在 HIDES 中 创建 一 个 目录 来 存储 ISON 数据 。 同 样 ， 我 们 选择 
[f tmp 目录 ,并 额外 创建 了 一 个 名 为 json_data 的 目录 ,创建 后 ,要 打开 目录 并 添加 jsonl json2 
和 json3 文件 。 图 7-8 显示 了 json data 目录 下 的 文件 。 


/mp ponasa €—— ——— 
D json data ur Suy Foe. PRRP i 
Name w Size ^ Owner ^ Group ^ Permission ^w NW 
* 
jsont 
B Updated 2016-07-02 0869 unn nen vere rs 
json2 
1.1 >” 
E < 二 2 kB admin hats -rw 二 会 
p = 10KB admin hots tette & "B8: 


图 7-8 向 HDFS 添 加 JSON 文件 


7.2.1 使 用 UDF 查询 JSON 


添加 文件 之 后 ,下 一 步 就 是 在 数据 上 创建 一 个 模式 。 从 这 里 开始 就 变 得 有 意思 了 ,你 需要 决 
定 如 何 查询 数据 。 访 问 ISON 数据 主要 有 两 种 方法 。 你 可 以 使 用 内 置 的 UDF ( HP GE X ERAI), 
岂可 以 使 用 内 置 的 或 可 公开 获得 的 ISON SerDe。 你 所 选 定 的 ISON 访问 方法 决定 了 存储 数据 的 
方式 和 应 用 于 数据 的 模式 。 

我 们 先 使 用 UDF 方法 。UDF 方法 是 最 简单 的 ， 因为 它 使 用 本 地 Hive PRÉC, 而且 只 需要 一 个 
简单 的 模式 。 第 一 步 是 创建 表 来 存储 ISON 数据 。 此 表 仅 由 一 个 字符 串 型 的 列 组 成 ， 它 表示 整个 
JSON 数据 。 我 们 创建 了 一 个 名 为 json data 的 数据 库 ， 并 且 将 在 该 数据 库 中 创建 此 表 。 你 也 可 
以 使 用 任何 自选 的 数据 库 。 在 Hive 视图 或 命令 行 中 执行 以 下 命令 。 


CREATE TABLE json_table ( 
json string); 


如 你 所 见 ， 该 表 只 有 一 列 ， 而 且 我 们 将 该 列 定 义 为 字符 串 类 型 。 下 一 步 是 将 JSON 数据 装 
载 到 这 个 表 中 ， 并 且 将 所 有 数据 存储 到 一 个 字符 串 型 的 列 中 。 从 Hive 视图 或 命令 行 执行 以 下 


命令 . 
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, LOAD DATA INPATH '/tmp/json data/jsoni' INTO TABLE json table; 


在 本 例 中 , 我 们 在 tmp 目录 下 创建 了 一 个 名 为 json_ data 的 目录 ， 并 且 上 传 了 jsonl 文件 。 上 
述 LOAD 语句 将 该 文件 装载 到 一 个 名 为 json table 的 表 中 。 要 查询 json table 表 中 的 所 有 数据 ， 
执行 下 述 查 询 ， 该 查询 使 用 了 名 为 get json object 的 UDF. 


select get json object(json table.json, '$') from json table; 


该 语句 将 返回 json table 表 中 的 所 有 数据 。 如 果 要 选择 多 个 值 ， 则 需要 为 每 个 值 都 执行 一 
条 SELECT 语句 。 下 面 是 一 个 选择 多 个 值 的 例子 。 


select get json object(json table.json, '$.balance) as balance, 
get json object(json table, '$.gender) as gender, 
get json object(json table.json, '$.phone) as phone, 
get json object(json.table.json, '$.friends.name) as friendname 
from json udf; 


该 查询 将 获得 json table 表 中 好 友 的 资产 余额 、 性 别 、 电 话 和 姓名 。 你 应 该 已 经 开始 注意 
到 ， 由 于 选择 了 额外 的 行 ， 而 且 随 着 数据 藤 套 层级 的 增加 ,该 查询 可 能 越 来 越 复杂 。 即 使 每 次 只 
需要 一 行 ， 也 必须 访问 整个 表 ， 而 且 这 种 迭代 处 理 方式 可 能 会 带 来 显著 的 性 能 开销 。UDF 的 优 
点 是 它 可 以 内 置 于 Hive, 你 不 必 再 创建 一 个 复杂 模式 或 者 尝试 根据 ISON 数据 的 内 容 和 格式 来 定 
义 一 个 模式 。 选 择 权 在 你 ,不 过 当 你 只 需要 处 理 小 型 JSON 数据 集 或 者 只 需要 检索 一 些 关键 属性 
时 ，get json object 是 很 好 的 选择 。 


7.2.2 ”使 用 SerDe 访问 JSON 


到 目前 为 止 ， 最 灵活 和 可 伸缩 性 最 好 的 方法 是 通过 SerDe 访问 JSON 数据 。SerDe 十 
“serializer\deserializer” 的 缩写 ， 是 Hive 从 表 中 读 取 数据 并 以 任何 自 定义 格式 编写 的 一 种 方法 ， 
开发 人 员 编 写 了 各 种 SerDe， 因 而 Hive 能 够 解释 不 同 的 文件 格式 。 

其 中 一 种 格式 就 是 JSON。 虽 然 有 好 几 种 ,但 是 在 Hive 中 读 取 JSON Zins ic MIT] SerDe 是 
由 Roberto Congiu 编写 的 ， 可 以 在 GitHub 上 找到 它 。 你 需要 按照 说 明 来 编译 JAR XIF, KA 
接 下 载 二 进 制 文件 。 无 论 如 何 ， 你 需要 将 JAR 文件 放置 在 可 从 Hive 环境 中 直接 访问 的 位 置 。 在 
本 例 中 , JAR SCPE DZ T /usr/local/Hive-JSON-Serde/json-serde/target/json-serde-1.3.8-SNAPSHOT-jar- 
with-dependencies. jar. 

一 旦 JAR 文件 到 位 ， 就 可 以 通过 命令 行 或 Ambari 视图 启动 Hive 了 。 在 Hive 局 动 且 执 行 查 
询 之 前 ， 必 须 使 用 ADD 命令 告诉 Hive 要 使 用 的 SerDe。 在 你 的 Hive 里 输入 以 下 命令 并 执行 。 


ADD JAR /usr/local/Hive-JSON-Serde/json-serde/target/json-serde-1.3.8-SNAPSHOT - jar-with- 
dependencies. jar; 


你 还 可 以 将 该 命令 添加 到 \hiverc 文件 ， 这 样 每 次 Hive 启动 时 该 JAR 文件 都 可 用 了 。 
现在 ，Hive 已 经 感知 到 了 SerDe, 你 可 以 创建 一 个 表 来 保存 ISON 数据 。 从 命令 行 或 Ambari 
视图 运行 下 述 DDL ( 最 好 的 方法 是 引用 HiveQL 文件 )。 


CREATE TABLE json serde table ( 
id string, 
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about string, 

address string, 

age int, 

balance string, 

company string, 

email string, 

eyecolor string, 

favoritefruit string, 

friends array<struct<id:int, name:string>>, 

gender string, 

greeting string, 

guid string, 

index int, 

isactive boolean, 

latitude double, 

longitude double, 

name string, 

phone string, 

picture string, 

registered string, 

tags array<string>) 
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe' 
WITH SERDEPROPERTIES ( "mapping. id" = "id" ) 


该 表 有 一 些 有 趣 的 特性 。 首 先 ， 它 与 我 们 在 UDF 示例 中 使 用 的 单列 的 表 极 为 不 同 。 这 意味 
看 我 们 更 容易 在 单条 Hive 语句 中 选择 单个 行 。 我 们 也 有 一 些 复杂 的 映射 ， 例 如 结构 和 数组 。 这 
些 对 于 表示 ISON 文档 中 的 藤 套 结构 非常 有 用 。 接 下 来 ,我 们 引用 在 执行 DDL 之 前 添加 的 SerDe。 
最 后 ,我 们 添加 了 一 个 SERDEPROPERTIES 命令 。 这 可 能 并 非 对 所 有 ISON 文档 都 必需 ,但 就 我 们 
用 到 的 文档 来 说 , 这 一 点 是 必要 的 ,因为 我 们 的 第 一 列 有 一 个 不 合法 的 下 划 线 。SERDEPROPERTIES 
命令 告诉 Hive 将 不 合法 的 ID 映射 到 合法 ID， 进 而 防止 发 生 错 误 。 


提示 “一些 ISON 文件 异 第 完 长 和 复杂 。 这 使 得 表 结 构 的 创建 具有 挑战 性 。 幸 运 的 是 ，Michael 
Peterson 创建 了 一 个 程序 ， 它 可 以 根据 JSON 文件 推断 出 一 个 模式 。 你 可 以 从 GitHub 页 
f; https://github.com/quux00/hive-json-schema 下 载 代 码 。 


我 们 现在 可 以 将 数据 装载 到 表 中 ， 就 和 我 们 在 前 面 的 UDF 例子 中 装载 数据 一 样 。 

LOAD DATA INPATH '/tmp/json data/jsoni' INTO TABLE json serde table; 

执行 下 面 的 查询 获取 一 些 数 据 。 

SELECT address, friends.name FROM json serde table; 

注意 , 我们 可 以 直接 使 用 点 符号 来 访问 friends 数组 中 的 name (A. EERE — FP 
向 单 而 明智 的 方法 。 

许多 人 喜欢 的 另 一 种 方法 是 使 用 Hive 内 置 的 ISON SerDe。 其 步骤 与 GitHub 版 本 类 似 ， 只 
是 不 再 要 在 创建 表 之 前 添加 JAR。 同 样 ， 如 果 你 将 ID 留 在 原始 ISON 文件 中 ,那么 查询 ID 值 结 
果 为 NULL。 执 行 以 下 DDL 来 创建 表 。 
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, CREATE TABLE json serde table ( 

id string, 
about string, 
address string, 
age int, 
balance string, 
company string, 
email string, 
eyecolor string, 
favoritefruit string, 
friends array<struct<id:int, name:string>>, 
gender string, 
greeting string, 
guid string, 
index int, 
isactive boolean, 
latitude double, 
longitude double, 
name string, 
phone string, 
picture string, 
registered string, 
tags array<string>) 

ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' 

STORED AS TEXTFILE; 


访问 本 地 的 SerDe 表 与 前 面 的 示例 完全 相同 。 

我 们 已 经 研究 了 在 Hive 中 访问 ISON 数据 的 两 种 方法 。 这 不 是 一 个 详尽 的 列表 ， 但 是 使 用 
SerDe 或 UDF 展示 了 访问 ISON 数据 最 沉 匈 和 最 简单 的 方法 。JSON 是 一 种 稼 见 的 数据 格式 ， 它 
有 看 惊 人 的 功能 ， 而 Hive 提供 了 一 种 简单 的 方法 来 访问 这 种 数据 ， 可 以 快速 地 从 其 内 容 中 洞察 
到 有 用 的 信息 。 


Hive 分 析 


分 析 是 通过 实施 增值 决策 将 数据 转化 为 知识 的 科学 过 程 。 那 么 什么 是 Hive 分 析 呢 ?Hive 分 
析 是 指 实际 应 用 Hive 系统 来 实现 业务 价值 。 

本 章 的 目标 如 下 。 

O r$ Hive 分析 的 基本 组 成 部 分 

口 了 解 基 本 的 业务 设计 工具 

D 使 用 Hive 创建 数据 仓库 

OQ 组 合 基 本 组 成 部 分 以 成 功 实现 分 析 处 理 

为 了 取得 最 大 收获 ,你 应 该 按照 顺序 完成 本 章 示 例 ， 因 为 本 草 总 体形 成 了 分 析 结 构 ， 这 是 熟 
练 掌握 必 备 处 理 技能 所 必需 的 。 


8.1 构建 分 析 模 型 


分 析 模 型 是 执行 查询 的 基本 结构 , 用 于 将 数据 转化 为 知识 。 通 过 明确 地 表达 数据 结构 就 可 以 
获得 智 甘 ， 而 这 些 数据 结构 也 会 作为 业务 过 程 决策 的 来 源 。 


注意 ”没有 效果 的 分 析 就 是 浪费 1! 


8.1.1 使 用 太阳 模型 获取 需求 | 
需求 可 以 通过 一 组 太阳 模型 来 表达 。 找 出 你 计划 要 达到 的 分 析 目 标 。 
注意 计划， 再 计划 ， 然 后 执行 。 用 80% 以 上 的 时 间 来 设计 ， 然 后 开始 ! 
1. 业务 太阳 模型 
业务 太阳 模型 是 业务 查询 需求 的 图 形 表 示 。 


业务 分 析 人 员 从 关键 业务 流程 收集 完整 的 分 析 需 求 集 , 并 将 其 从 图 形 格式 的 报表 转换 为 待 开 
发 成 Hive 代码 的 太阳 模型 。 
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.通过 独立 研究 每 个 报表 需求 ， 可 以 形成 一 个 太阳 模型 ， 它 代表 了 为 在 Hive 数据 仓库 中 应 对 
特定 报表 需求 所 需 的 分 析 结构 。 
提示 “保持 最 简 法 则 ， 每 次 只 研究 一 份 专项 报表 。 
让 我 们 从 一 个 简单 的 模型 开始 。 
。 条 形 图 
让 我 们 以 条 形 图 为 例 ， 来 看 一 个 处 理 和 需求 的 示例 ( 如 图 8-1 所 示 ). 
你 能 从 条 形 图 中 提取 出 什么 呢 ? 
<< lg 
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ENS o e n 
ee 
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图 8-1 余额 排名 前 10 位 的 客户 


口 需要 一 个 针对 客户 的 选择 各 
OQ 选择 需 由 两 个 组 件 构建 
m First Name 
m Last Name 
Q 需要 一 种 针对 余额 的 度量 
m 余 领 是 以 瑞 镑 为 标准 单位 计量 的 
O 需要 筛选 返回 “余额 排名 前 10 位 的 客户 ” 
O 再 要 按 降序 对 余额 排序 
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e 带 有 下 拉 选 项 的 条 形 图 
通过 添加 俩 好 可 以 增强 该 图 ， 用 一 系列 科 选 带 来 细 分 数据 集 〈 如 图 8-2 所 示 )。 


FirstName v LastName T 


JERR! GAUNT 


GREGORY HAUG 


图 8-2 iA FAS Ze (FirstName 和 LastName ) 的 前 10 名 客户 


e 太阳 模型 
太阳 模型 是 一 种 业务 友好 型 的 设计 工具 , 它 使 业务 分 析 人 员 能 够 以 业务 人 员 和 技术 人 员 可 理 
解 的 格式 来 记录 需求 
太阳 模型 包含 两 个 基本 组 成 部 分 。 
O 维度 : 维度 可 以 用 来 查询 分 析 模 型 。 在 该 太阳 模型 中 有 了 两 个 维度 : Customer 和 Account 
( 如 图 8-3 所 示 ). 
ORS: 事实 具有 统计 功能 。 
Sum: 计算 所 选 记录 的 余额 总 和 。 
Average: 计算 所 选 记录 的 平均 余额 。 
Maximum: 从 所 选 记录 中 返回 最 大 余额 。 
Minimum: 从 所 选 记录 中 返回 最 小 余额 。 
所 选 记录 中 两 组 余额 的 皮尔 逊 相关 系数 。 
来 自 所 选 记录 集合 的 余额 的 第 NN 个 百分点 。 
绘制 所 选 记录 中 全 部 余额 的 百 方 网 。 


Customer 


Last Name ' | (Account Number 


OMEN ZZ ad 


Person Key '*) (*) Account Key 


M 7 


图 8-3 ”太阳 模型 ( 一 个 事实 ， 两 个 维度 ) 
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:下面 是 对 该 太阳 模型 的 简要 解释 。 
O 左 侧 的 选择 分 文 针 对 Customer 
m 包含 名 为 Person Key 的 唯一 键 
m Last Name iX f£ 
m First Name 选择 器 
Q 右 侧 的 选择 分 文 针 对 Account 
m 包含 名 为 Account Key 的 唯一 键 
m Account Number 选择 硕 
TE Customer Ej Account 的 交互 过 程 中 ， 你 记录 了 当前 的 Balance 度量 。 
现在 我 们 研究 业务 需求 中 的 另 一 种 关系 ， 名 为 LiveAt ( 如 图 8-4 所 示 )。 


First Name 
Post Code 
Last Name | 


Person Key ( 


(K) Address Key ( ) Date 


Date Time Key 


图 8-4 太阳 模型 (一 个 事实 ， 三 个 维度 ) 


O 左 侧 选 择 分 文 针对 Customer 
m 包含 名 为 Person Key 的 唯一 键 
m Last Name 选择 大 
m First Name 选择 需 
O 中 间 的 选择 分 文 针 对 Address 
m 包含 名 为 Address Key 的 唯一 键 
m Post Code FE fF 
O 右 侧 选择 分 文 针对 Date Time 
m 包含 名 为 Date Time Key 的 唯一 键 
m Date 选择 需 
在 Customer, Address fll Date Time 的 交互 过 程 中 ， 你 记录 了 当前 的 LiveAt 关系 。 


2. FARRER 
FIBRE TA, ER A PT A EP BE BUOU AE EAM SY AY KB 
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你 必须 创建 这 样 一 个 矩阵 : 矩阵 的 左边 是 完整 的 唯一 维度 列表 ,而 矩阵 的 顶部 是 完整 的 事实 
列表 。 然 后 在 矩阵 的 每 个 交叉 点 记录 一 个 指示 符 , 这 表示 特定 维度 和 特定 事实 一 起 构成 了 数据 中 
的 关系 。 

图 8-5 展示 了 一 个 内 联 和 矩阵 示例 。 很 显然 ， 两 个 太阳 模型 都 用 到 了 Person。 这 表明 Person 是 
一 个 公共 维度 。 


图 8-5 AKERE 


注意 ”作为 一 般 性 规则 ， 最 好 不 要 在 单个 度量 上 使 用 15 个 以 上 的 维度 ， 以 确保 针对 数据 库 结 构 
有 良好 的 查询 性 能 。 这 样 可 以 通过 减少 每 个 度量 的 维度 来 减少 查询 中 的 连接 量 。 


维度 的 一 般 性 规则 是 : 它 应 该 是 “ 宽 ” 型 结构 ， 也 就 是 说 可 以 有 很 多 选择 占 ， 甚 至 可 能 有 效 
百 个 选择 希 。 记 录 数 是 “ 浅 ” 型 的 ， 也 就 是 说 没有 太 多 记录 ， 因 为 它 必 须 作 为 选择 吾 中 的 列表 。 
一 个 维度 会 有 数 百 条 记录 。 

事实 的 一 般 性 规则 是 : 它 应 该 是 “ 罕 ” 型 绪 构 ， 也 就 是 说 可 以 有 1 ~ 15 个 键 , 再 加 上 一 个 度 
量 。 记 录 数 是 “ 深 ” 型 的 , 也 就 是 说 可 以 有 大 量 记 录 ， 因 为 它 捕获 了 该 事实 在 业务 中 的 每 一 次 交 
互 。 一 个 事实 可 能 有 数 十 亿 条 记录 。 

内 联 矩 阵 必须 精简 整齐 ， 以 确保 形成 最 佳 解决 方案 。 该 矩阵 是 通过 把 整个 维度 列表 放 在 窍 阵 
的 左边 而 形成 的 。 对 其 按 字 母 顺 序 进行 排列 ,并且 将 指示 符 转 换 为 矩阵 中 一 个 单独 的 维度 行 , 依 
此 消除 重复 项 。 该 操作 为 你 提供 了 公共 维度 。 

和 矩阵 的 首 行 是 你 为 分 析 模 型 建立 的 所 有 事实 或 度量 。 按 字母 顺序 对 该 行进 行 排 序 , 并 且 将 指 
示 符 转换 为 矩阵 中 一 个 单独 的 事实 列 ， 借 此 消除 重复 项 。 该 操作 为 你 提供 了 公共 事实 。 


8.1.2 将 太阳 模型 转换 为 星 型 模式 


通过 添加 创建 物理 模型 所 需 的 技术 细节 , 可 将 太阳 模型 集 转换 为 星 型 模式 。 其 方法 是 基于 太 
虽 模 型 ， 为 每 个 选择 器 和 度量 都 添加 一 个 字段 类 型 的 描述 。 
First Name 现在 演变 为 First Name Varchar (200)， 如 图 8-6 所 示 。 
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Post Code 
Varchar(20) 


First Name 
Varchar(200) Q 


Last Name | 


Varchar(200) 2. Address Key Date 
| Integer Date - ISO 8601 
Person Key ` 
— x ?*/ Date Time Key 

图 8-6 源 目 太阳 模型 的 星 型 模式 
1. 维度 
现在 已 经 有 了 维度 结构 ， 让 我 们 更 加 深入 地 研究 基本 维度 。 
2. 基本 维度 


维度 是 数据 仓库 的 一 部 分 ,能够 对 数据 进行 “切片 和 分 割 ” 操 作 。 它 们 用 于 将 数据 集 细 分 为 
所 需 的 筛选 集 。 — 


e 常见 维度 类 型 

有 一 组 特定 类 型 的 维度 可 以 帮助 你 整理 数据 并 形成 数据 仓库 模型 。 

每 种 维度 类 型 都 将 特定 行为 添加 到 维度 中 ， 并 且 文 持 选 择 上 需 为 分 析 模 型 实现 所 需 的 业务 
需求 。 

不 同 的 结构 被 描述 为 类 型 。 


注意 关于 哪些 类 型 应 该 存在 ,设计 社区 有 各 种 各 样 的 讨论 。 我们 只 讨论 类 型 0、 类 型 |、 类 型 
2 和 类 型 3， 以 及 其 他 一 些 用 于 增强 性 能 的 特殊 结构 。 


下 面 更 深入 地 讨论 各 种 不 同 的 维度 类 型 ， 
提示 “获得 准确 而 高 效 的 维度 是 需要 一 些 练习 的 ， 不 过 ， 你 可 以 不 断 重 复 ， 直 到 赁 直觉 就 知道 
哪 种 维度 适用 于 哪 种 数据 为 止 。 


。 类 型 0: 保护 第 一 个 什 

仅 当 新 值 在 维度 表 中 不 存在 时 ， 类 型 0 维度 记录 才 添 加 该 值 ， 如 果 该 值 存在 ， 则 保留 添加 到 
其 字段 中 的 原始 值 。 

当 你 希望 将 记录 的 值 保持 为 首次 接收 时 的 值 ， 不 进行 后 续 更 新 时 ， 就 可 以 采用 这 种 维度 类 型 ， 
在 业务 实践 中 ， 当 业务 实体 的 原始 值 应 该 受到 保护 时 ， 就 可 以 使 用 这 种 维度 类 型 。 

图 8-7 给 出 了 一 个 例子 ， 说 明 每 条 人 员 信 息 的 第 一 个 邮政 编码 是 受 保护 的 。 
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Key | PostCode — 
| _1|Ruff Hond 第 1 次 加 载 


Robbie Rot |FK8 1EJ 


| 第 2 次 加 载 


KA12 8RR 
obbieRot|FK81E) — 


图 8-7 类 型 0 维度 


Ruff Hond 在 第 1 次 加 载 时 的 邮政 编码 为 KKA12 8RR。 
Ruff Hond 在 第 2 次 加 载 时 的 邮政 编码 变更 为 EHI 2NG， 但 是 系统 没有 改变 邮政 编码 。 它 的 
值 保持 为 KA12 8RR。 


e 类 型 1: 保留 最 新 值 

如 果 维 度 表 中 不 存在 某 个 新 值 ， 类 型 1 维度 将 添加 该 值 ; 如 果 该 值 存在 ,那么 它 将 更 新 到 最 
新 值 。 

当 你 硕 望 记录 值 与 最 新 人 保持 一 致 ， 且 不 再 保留 以 前 的 值 时 ， 可 使 用 这 种 类 型 的 维度 。 

加 载 的 最 终结 果 是 最 后 一 次 上 传 数据 的 快照 。 

在 实际 业务 中 ， 当 存储 业务 实体 最 后 一 次 更 新 的 值 而 不 保留 以 前 的 历史 值 时 , 就 可 以 使 用 这 
种 类 型 的 维度 . 

图 8-8 展示 的 是 存储 某 人 最 新 的 邮政 编码 时 没有 保留 其 历史 记录 。 


E 第 1 次 加 载 
| 2jRobbieRot|FK81E) | 


| ijRuffHond |KA128RR | 
| 2|RobbieRot|FK81E) | 


Key|Name [PostCode - 
第 2 次 加 载 


Key|Name ^ |PostCode | 
| ijRuffHond |EH12NG — | 
| 2aRobbieRot|FK81E; —— | 


图 8-8 类 型 1 维度 
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Ruff Hond 在 第 1 次 运行 时 加 载 了 邮政 编码 KA12 8RR。 | 
Ruff Hond 的 邮政 编码 在 第 2 次 加 载 时 变更 为 EHI 2NG。 系 统 将 邮政 编码 更 改 为 EH1 2NG, 
并 且 没 有 保留 其 与 邮政 编码 KA12 8RR 相关 的 记录 。 


e 类 型 2: 保留 完整 历史 

类 型 2 维度 的 特点 是 : 如 朵 维度 表 中 不 存在 茶 个 新 值 ， 则 添加 该 新 值 ; 如 果 存 在 该 新 值 ， 则 
用 有 效 的 日 期 /时 间 值 更 新 此 前 的 记录 。 为 最 新 值 添加 一 条 新 记录 。 

当 数 据 在 其 生命 周期 中 发 生变 化 时 , 如 果 你 和 希望 保留 该 记录 的 所 有 值 , 那么 就 可 以 使 用 这 种 
维度 。 它 为 你 提供 了 数据 上 传 的 完整 历史 。 如 果 在 存储 业务 实体 最 新 值 的 同时 还 要 保存 所 有 的 历 
史 值 ， 就 可 以 使 用 这 种 维度 。 

图 8- 和 而 且 这 里 的 日 期 值 

是 有 效 的 。 


第 1 次 加 载 


| [LE 
a 

<i 

| BER 
J 


Ie ee 

"I~? a 

| 2|RobbeRot|FK81E | | 
图 8-0 类 型 2 维度 


在 第 1 次 运行 时 ，Ruff Hond 加 载 了 邮政 编码 KA12 8RR， 而 Valid-To Date 字段 为 空 值 . 

第 2 次 加 载 时 ，Ruff Hond 的 邮政 编码 变更 为 EH1 2NG。 系 统 更 新 此 前 邮政 编码 为 KA12 8RR 
的 那 条 记录 的 Valid-To Date 值 ， 然 后 添加 一 条 邮政 编码 为 EHI 2NG 的 新 记录 ( 其 Valid-To Date 
取 值 为 空 )， 通 过 这 种 方式 将 邮政 编码 更 改 为 EH1 2NG. 


注意 根据 经 验 ， 如果 你 无 法 确定 使 用 哪个 维度 ,建议 使 用 类 型 2。 你 可 以 将 类 型 2 维度 转换 为 
任何 其 他 维度 ， 因 为 它 保存 了 将 类 型 2 维度 重组 为 其 他 维度 类 型 所 需 的 每 个 数据 项 。 


e 类 型 3: 记录 变迁 
对 于 类 型 3 维度 记录 来 说 ， 如 果 维度 表 中 不 存在 某 个 值 ， 则 添加 该 值 ， 如 果 存在 ， 则 前 一 字 
段 值 更 新 为 当前 字段 值 ， 而 当前 字段 值 更 新 为 使 用 已 有 数据 字段 的 最 新 值 。 


当 数 据 在 其 生命 周期 中 发 生变 化 时 ,如 果 你 希望 保留 该 记录 的 前 一 个 值 ， 
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就 可 以 采用 这 种 维 


度 。 这 让 你 可 以 直接 引用 此 前 的 数据 上 传 历 史 。 如 果 存 储 业务 实体 最 新 值 的 同时 ， 需 要 在 同一 记 
-前 一 个 ”字段 中 保留 变迁 信息 ， 则 可 以 使 用 这 种 维度 。 


a AY 


KAI2 8RR, 


新 为 


图 8-10 说 明了 一 个 人 的 最 新 邮政 编码 是 如 何 与 “前 一 


Key |Na 
rd 
| 2jRobbie Rot |FK81E) | 


lu 1 次 加 载 


Key|Name [Post Code |Prev Post Code. 
| i|RuffHond [KA128RR | ^ | 
| 2jRobbieRot]FPK81E | č | 


Key|Name [Post Code 
| ijRuffHond |EH12NG | 第 2 次 加 载 


Key[Name [Post Code [Prev Post Code | 
[ ijRuffHond |EM12NG [KA12 8RR —— 
[ajmobbieRomsiu | — 


图 8-10 ”类 型 3 维度 


”邮政 编码 一 起 存储 的 。 


Ruff Hond 在 第 1 次 运行 时 加 载 了 邮政 编码 KA12 8RR， 而 且 其 Prev Post Code 为 空 值 。 


之 后 ，Ruff Hond 的 邮政 编 公 变更 为 EH1 2NG。 
然后 将 Post Code 的 值 更 新 为 EHI 2NG, 


EHI 2NG. 


e 微型 维度 


微型 维度 是 维度 的 扩展 ， 如 图 8-11 所 示 。 


a 当 模 型 中 所 有 查询 过 程 都 没有 使 用 字段 时 ; 
口 在 一 个 查询 操作 中 ， 不 可 能 返回 某 个 维度 中 的 所 有 字段 时 。 


Key|Name —— |PostCode 
| 
| 2RobbieRot|FK81E) | 


| 2jRobbie Rot | 


图 8-11 微型 维度 


将 字段 划分 为 两 个 维度 可 以 减 小 查询 所 必须 处 理 的 数据 规模 。 如果 你 通常 内需 


分 ， 这 种 方式 就 很 有 效 。 这 并 不 会 改变 记录 的 值 ， 只 是 提高 了 查询 的 处 理 速度 。 


系统 将 该 记录 的 Prev Post Code 值 更 新 为 
通过 这 种 方式 将 Ruff Hond 的 邮政 编码 更 


它 文 持 对 维度 细 分 ,在 以 下 情况 下 可 辅助 数据 查询 


要 字段 的 一 部 
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© 面向 类 型 2 维度 中 快速 变化 值 的 微型 维度 | 

如 果 维 度 包含 了 经 历 快速 变更 的 特殊 字段 , 进而 导致 该 维度 占用 的 磁盘 空间 增长 过 快 , 那么 
就 可 以 拆 分 这 些 快速 变化 的 字段 ( 如 图 8-12 所 示 )， 以 便 对 数据 仓库 重新 建 模 。 采 用 这 种 方式 很 
容易 使 磁盘 规模 的 增长 最 小 化 。 
Key [Name [Post codel 


| ijRuffHond |KA128RR. 
| 2jRobbieRot|FK81E) | 


Y 


第 1 次 加 载 


Key|Name — 
| ijRuffHond | | 1|KAIBSRR | — 0 0 
| 2jRobbieRot| | 2|]FK81E | —— | 


Key|Name — | 
| 1|Ruff Hond 
| 2|Robbie Rot 


图 8-12 ”微型 维度 快速 变化 
将 字段 划分 为 两 个 维度 会 减少 存储 历史 数据 记录 所 需 的 数据 规模 。 
这 不 会 改变 记录 的 值 ， 它 只 会 改进 数据 的 存储 和 查询 过 程 。 
注意 ”需要 在 磁盘 空间 增长 和 查询 时 间 影 响 之 间 寻 求 平 衡 。 建 议 你 随时 间 推 移 不 断 地 调整 这 些 
结构 ， 以 保持 良好 的 性 能 


e 面向 因 安 全 约束 出 现 的 分 隔 值 的 微型 维度 

经 稼 强制 性 要 求 对 某 些 值 进行 隔离 ， 以 确保 符合 安全 性 需求 。 在 这 种 结构 中 ,你 需要 将 安全 
性 敏感 的 字段 分 隔 为 独立 的 维度 ， 如 图 8-13 所 示 。 
Key|Name ^ [Postcode 


[ iRuffHond |kAl28RR 
| 2|RobbieRot|FK81E) | 


V 不 安全 PA 
Key|Name | Key |Post Code | 
| i|RuffHond | | 1|KA128RR | 
| 2|RobbieRot] | 2|FK81E | 
图 8-13 ”安全 性 微型 维度 


将 字段 划分 为 两 个 维度 , 可 以 将 字段 隔离 在 两 个 维度 上 ,- 以 使 数据 被 隅 离 保 护 。( 参见 第 10 i, 
了 解 Hive 的 安全 性 。) 
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警告 要 确保 在 整个 数据 集中 保持 键 的 同步 。 如 果 失 去 了 这 些 关系 ， 则 整个 结构 将 变 得 无 效 。 


e 面向 因 语 言 差异 出 现 的 分 隔 值 的 微型 维度 
在 分 析 模 型 中 , 需要 用 不 同 的 语言 呈现 相同 的 维度 。 这 通过 为 每 种 语言 在 单独 维度 上 复制 这 
些 维度 来 实现 。 这 使 得 该 过 程 比 将 所 有 语言 的 值 集 中 到 一 个 大 型 维度 上 更 加 容易 ， 如 图 8-14 所 示 。 
Key|Name ^ |PostCode 


| ajRuffHond |KAI28RR | 
[ "ajRobbie Rot|Frg 1E) 


Key 
| 1|KA128RR 
| 2jFK81E | 


uff Dog 

[ -ajnobbie Rat 
法 语 

key [name — 


了 Ruff Chien | 
|__2}Robbie Rat | 


图 8-14 ”面向 语言 差异 的 微型 维度 
通过 将 字段 划分 为 多 个 微型 维度 ,查询 可 以 生成 不 同 语言 的 版 本 。 你 只 需 为 所 需 语言 整合 正 
确 的 数据 查询 表 。 


e 支撑 维度 
当 已 经 有 一 个 包含 所 需 值 的 维度 时 ,就 要 用 到 支撑 维度 了 , 你 只 需 在 你 构造 的 维度 中 添加 一 ‘= 
个 键 来 链接 到 已 有 维度 ， 如 图 8-15 所 示 。 


图 8-15 ”支撑 维度 
图 中 创建 了 用 于 描述 所 需 数据 的 3 个 表 。 


警告 ” 当 你 创建 支撑 维度 时 要 注意 ， 在 当前 和 未 来 的 变化 过 程 中 ， 不 要 将 变更 实施 到 支撑 结构 
中 。 这 将 对 支撑 维度 的 主要 用 途 造成 影响 ， 使 支撑 关系 和 该 维度 的 主要 用 途 失 效 。 
最 常见 的 错误 是 在 支撑 维度 上 使 用 自动 化 键 生成 器 。 每 当 你 重建 该 键 时 ， 就 会 破坏 其 支 
HRA. 


e 桥 维度 
当 两 个 维度 具有 多 对 多 关系 , 并 且 你 和 希望 创建 某 种 桥 式 维度 结构 时 , 可 以 使 用 桥 维 度 来 描述 
所 创建 的 关系 ， 如 图 8-16 所 示 。 


Key 
Lud 
[ ijRuffHond | 
| 2|RobbieRot|FK81E) | 


Y 


Key|Name —— 


| 2|Robbie Rot 


[d 8-16 PFE 


Ruff Hond 在 两 个 地 方 生 活 ， 邮 政 编码 分 别 是 KA12 8RR AI EHI 2NG。 通 过 添加 桥 ， 这 种 关 
系 被 转换 成 两 个 一 对 多 关系 。 | 


SH ”如果 你 要 创建 桥 维度 ， 应 该 保持 其 数量 最 少 ， 因 为 当 你 查询 这 些 结构 时 ， 需 要 涉及 很 复 
杂 的 关系 。 这 些 数据 结构 会 在 查询 中 创建 大 规模 数据 集 . 


3. 事实 
事实 是 对 分 析 模 型 的 度量 。 为 了 能 够 应 用 数学 函数 和 聚合 也 数 ， 数 据 字段 应 该 是 数值 型 的 


e 计算 事实 

使 用 数学 艺 数 和 聚合 隐 数 可 以 创建 新 的 事实 。 可 能 用 到 的 函数 如 下 ， 

O 求 和 

a 求 平 均值 

口 求 最 小 值 

口 求 最 大 值 

a 计数 

a 综合 事实 来 创造 一 个 新 的 计算 事实 

你 还 可 以 应 用 许多 其 他 困 数 ， 但 是 在 此 不 再 罗列 。( 详情 请 参阅 附录 B.) 


图 8-17 显示 了 如 何 应 用 


e 非 事实 型 事实 


8.1 
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求 和 困 数 来 创建 一 个 名 为 “当前 余额 ”的 新 计算 事实 。 


Key |Na 

M Tat ond aan | € 20040. 
[ 2|RuffHond |KA128RR | £ — 20.00 | 
| 3|RuffHond |KA128RR |-£ — 10.00 
[ 4j|RobbieRot|FK81E) |£ 200.00 
[ S|RobbieRot|FK81E) |-£ — 30.00; 


Key|Name [Post Code [Balance - 
P ijmufuond [AlzaRR e 1087 
[ 2|RobbieRot|FK81E) |£ 170.00, 


图 8-17 计算 事实 


非 事 实 型 事实 是 一 种 数据 结构 ， 它 描述 了 一 种 保存 不 同 维度 之 间 关 系 的 结构 。 


没有 度量 的 实体 之 间 是 存在 关系 的 。 客户 与 其 家 庭 地 址 间 的 关系 就 是 这 样 一 个 例子 , 如 图 8-18 


Hir 7 
维度 维度 
Key|Name | Key [Post Code | 
| ijRuffHond | | — — 20|KA12 8RR 
| 2jRobbie Rot | |. 2iFK81E | 
|. 22]EH12NG | 
|Name Key | Post Key | factcount 
LR. a 
Lodo] 4 2 
Lou LUE ew 


在 这 个 事实 表 中 只 有 客户 和 地 址 之 间 的 关系 。 


注意 ”建议 你 在 创建 事实 时 ， 
易 地 在 查询 中 使 用 数学 函数 和 聚合 函数 ， 


8.1.3 构建 数据 仓库 


通过 将 太阳 模型 转换 成 星 型 模式 可 以 构建 数据 仓库 。 你 可 以 为 数据 类 型 提供 字段 ,然后 将 星 


图 8-18 非 事实 型 事实 


型 模式 转换 为 Hive 代码 ， 通 过 这 种 方式 构建 Hive 数据 仓库 结构 。 


因此 ， 没 有 任何 事实 或 度量 与 键 一 起 存储 。 


总 是 添加 一 个 名 为 factcount = 1 的 标准 字段 ， 因 为 这 样 可 以 更 容 
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在 进行 物理 构建 之 前 ， 让 我 们 先 做 一 次 验证 性 检查 。 
重新 访问 内 联 和 矩阵 和 为 业务 准备 的 所 有 太阳 模型 。 
OQ 构成 矩阵 时 将 维度 置 于 矩阵 的 左 侧 。 按 字母 顺序 对 这 些 维度 排序 ， 并 且 删 除 所 有 重复 项 
现在 你 就 有 了 公共 维度 。 
CO 矩阵 的 顶部 是 你 为 分 析 模 型 构建 的 所 有 事实 和 度量 。 按 字母 顺序 对 它们 排序 ， 并 且 删 除 
所 有 重复 项 。 现 在 你 就 有 了 公共 事实 。 
O 确定 维度 是 否 匹配 业务 所 需 的 类 型 。 
m 类 型 0 维度 
m 类 型 ] 维度 
m 类 型 2 维度 
m 类 型 3 维度 
m 做 型 维度 
e 快速 变化 
e 安全 性 
eis 
m 文 择 维度 
m 桥 维 度 
既然 你 已 验证 了 数据 仓库 ， 下 面 在 Hive 中 创建 一 个 维度 。 


注意 为 了 执行 Hive 代码， 需要 打开 Hive 终端 。 


1. 以 根 用 户 身份 登录 

如 果 你 收 到 根 用 户 访 问 错 误 ， 请 执行 以 下 命令 。 
hadoop fs -mkdir /user/root 

hadoop fs -chmod 777 /user/root 


这 将 解决 访问 问题 。 

2. 维度 

维度 是 数据 仓库 的 核心 选择 器 。 维 度 是 通过 使 用 融 有 dim 前缀 的 表 创 建 的 。 
e 典型 维度 


以 下 是 一 个 典型 的 维度 结构 。 

口 它 有 一 个 名 为 personkey 的 唯一 键 

a 它 有 名 为 firstname 和 lastname 的 选择 器 

构建 一 个 简单 的 Hive 维度 需要 两 个 关键 部 分 : 数据 库 和 表 。 

(1) 要 创建 一 个 转换 数据 库 ， 可 以 在 你 的 Hive 终 端 上 执行 以 下 操作 。 


CREATE DATABASE IF NOT EXISTS transformdb; 
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EGE Hive 代码 将 创建 一 个 名 为 transformdb 的 数据 库 ， 同 时 检查 它 是 否 已 经 存在 。 


注意 ”如果 你 想 知 道 为 什么 取 名 为 transformdb， 请 参见 8.3 节 。 在 此 之 前 只 要 按照 说 明 使 用 
Bp 可。 


(2) 创建 一 个 维度 表 。 

维度 包括 : 

O personkey， 即 该 维度 的 键 ; 

D firstname 和 1lastname， 即 该 维度 的 属性 。 
在 你 的 Hive 终 端 中 ， 执 行 以 下 操作 。 

USE transformdb; 


这 将 通知 Hive 使 用 你 刚刚 创建 的 数据 库 。 

在 你 的 Hive 终端 中 ， 执行 以 下 步骤 来 创建 维度 表 。 

CREATE TABLE IF NOT EXISTS transformdb.dimperson ( 
personkey BIGINT, 


firstname STRING, 
lastname STRING 


) 

CLUSTERED BY (firstname, lastname,personkey) INTO 1 BUCKETS 

STORED AS orc 

TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


ix E Hive 代码 创建 了 一 个 名 为 transformdb.dimperson W#, EA 3 个 字段 。 


sete 


$B ”如果 你 并 不 确定 Hive 命令 的 全 部 含义 ， 可 阅读 第 4 章 获 取 更 多 信息 。 


e 公共 维度 
公共 维度 是 你 的 分 析 模 型 所 需 的 公共 选择 器 。 


这 是 了 所 有 可 应 用 于 模型 的 下 拉 列 表 和 筛选 各 的 基础 。 
到 此 为 止 ， 你 将 不 再 创建 剩 下 的 维度 ， 因 为 我 们 将 在 8.3.5 节 中 创建 它们 。 


3. 事实 
事实 是 分 析 模 型 的 度量 。 
对 于 事实 而 言 ， 你 创建 的 表 带 有 前 级 fct. 


e 典型 事实 

以 下 是 一 个 典型 的 事实 结构 。 

O 一 组 键 ， 每 一 个 与 该 事实 相关 联 的 维度 都 有 一 个 键 
OQ 单一 事实 ， 即 度量 

要 创建 事实 表 ， 可 以 在 你 的 Hive 终端 中 执行 以 下 操作 。 
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. CREATE TABLE IF NOT EXISTS transformdb.fctpersonaccount ( 
personaccountkey BIGINT, 


personkey BIGINT, 
accountkey BIGINT, 
balance DECIMAL(18, 9) 


) 

CLUSTERED BY (personkey,accountkey) INTO 1 BUCKETS 

STORED AS orc 

TBLPROPERTIES('transactional' = 'true', 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


上 述 Hive 代码 创建 了 一 个 名 为 fctpersonaccount 的 表 ， 其 中 含有 连接 3 个 维度 ( personaccount , 
person 和 account ) WHE, 还 有 一 个 名 为 balance 的 事实 。 


e 公共 事实 
公共 事实 是 分 析 模 型 所 需要 的 公共 度量 。 该 事实 可 以 用 在 Hive 的 任何 一 个 数学 也 数 和 聚合 
eR rp S 


EO 参看 附录 B， 详 细 了 解 你 可 以 使 用 哪些 函数 。 


在 查询 之 时 ， 还 存在 多 种 创建 额外 计算 事实 的 可 能 性 ， 它 们 是 公共 事实 的 补充 。 
这 样 的 例子 如 下 。 

O AKA EH] sum() KE 

Q 最 大 余额 : DE max( PRA 

O 账户 数量 : 使 用 count (KR 

O 余额 方差 : 使 用 variance() KZO 

O 余额 百 分 位 数 : 使 用 percentile approx() K% 


8.2 评估 分 析 模 型 
现在 你 已 经 构建 了 一 个 基本 的 分 析 模型 。 下 一 步 是 用 查询 来 评估 模型 ， 实 现 业务 需求 。 


8.2.1 评估 太阳 模型 


一 个 很 好 的 测试 就 是 评估 每 个 太阳 模型 ， 并 且 创 建 查 询 来 按照 所 需 格式 将 信息 发 送 到 业务 
LX 

通过 这 种 方式 , 你 可 以 针对 协商 好 的 太阳 模型 创建 一 对 一 的 交付 检查 ,而 这 些 太阳 模型 是 你 
在 业务 用 户 的 帮助 下 构建 的 。 

在 你 的 Hive 终端 中 ， 执 行 以 下 操作 来 创建 所 需 的 额外 Hive 结构 。 

现在 这 应 该 很 简单 了 ， 因 为 你 已 经 掌握 了 所 需 的 Hive 技能 。 


1. 再 创建 两 个 数据 库 
在 下 一 阶段 ， 你 还 需要 额外 的 数据 库 和 表 。 现 在 ， 和 直接 创 建 它 们 即 可 ; 相关 业务 解释 将 在 
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8.3 节 进 行 介 绍 。 


CREATE DATABASE IF NOT EXISTS organisedb; 
CREATE DATABASE IF NOT EXISTS reportdb; 


2. 创建 额外 的 表 

现在 ， 添 加 更 多 的 表 以 构建 额外 的 结构 ， 从 而 进一步 巩固 你 的 Hive 技能 。 熟 能 生 巧 ij 
循 以 下 8 个 步骤 。 

(1) 使 用 数据 库 transformdb。 


USE transformdb ; 


(2) 创建 表 transformdb.dimaccount. 


CREATE TABLE IF NOT EXISTS transformdb.dimaccount ( 
accountkey BIGINT, 
accountnumber INT 


) 
CLUSTERED BY (accountnumber,accountkey) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


(3) 使 用 数据 库 organisedb. 

USE organisedb; 

(4) 创建 表 organisedb.dimaccount. 

CREATE TABLE IF NOT EXISTS organisedb.dimaccount LIKE transformdb.dimaccount; 

你 有 没有 发 现 创 建新 表 时 用 到 了 LIKE? 这 是 一 个 很 有 用 的 命令 , 用 于 确保 两 个 表 的 结构 相 
UU AC. 

(5) 创建 表 organisedb.fctpersonaccount. 


CREATE TABLE IF NOT EXISTS organisedb.fctpersonaccount ( 
personaccountkey BIGINT, 


personkey BIGINT, 
accountkey BIGINT, 
balance DECIMAL(18, 9) 


) 
CLUSTERED BY (personkey,accountkey) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES('transactional' = true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


(6) 创建 表 organisedb.dimperson. 


CREATE TABLE IF NOT EXISTS organisedb.dimperson ( 
personkey BIGINT, 
firstname STRING, 
lastname STRING 
) 
CLUSTERED BY (firstname, lastname,personkey) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 
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(7) 使 用 数据 库 reportdb. 


USE reportdb; 


(8) 创建 表 reportdb.reportoo1. 
CREATE TABLE IF NOT EXISTS reportdb.reportoo1( 


firstname STRING, 
lastname STRING, 
accountnumber INT, 

balance DECIMAL(18, 9) 


) 
CLUSTERED BY (firstname, lastname) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


现在 ， 你 有 了 进入 下 一 步 所 需 的 所 有 数据 结构 。 
评估 过 程 就 是 为 了 测试 你 是 否 有 了 完整 的 太阳 模型 ， 如 图 8-19 所 示 。 


First Name ( ) 


"hu. 


Last Name © ) (Account Number 


men 


"d 
rne!" 


图 8-19 太阳 模型 
要 为 太阳 模型 创建 评估 过 程 ， 可 以 使 用 下 述 Hive 代码 。 


INSERT INTO TABLE reportdb.report001 
SELECT 
dimperson.firstname, dimperson.lastname, 
dimaccount.accountnumber, 
fctpersonaccount.balance 
FROM 
organisedb.fctpersonaccount 
JOIN 
organisedb.dimperson 
ON 
fctpersonaccount.personkey - dimperson.personkey 
JOIN 
organisedb.dimaccount 
ON 
fctpersonaccount.accountkey - dimaccount.accountkey; 


如 果 你 成 功 返回 结果 ， 那 么 就 证 明 该 太阳 模型 是 按照 数据 仓库 结构 生成 的 。 


8.2.2 VaR 
针对 分 析 模 型 创建 聚合 结果 很 常见 ， 计 算 事实 结构 涵盖 了 相关 内 容 。 
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还 可 以 应 用 某 些 复杂 的 困 数 计算 ， 但 是 对 于 这 种 结构 而 言 ， 你 只 需要 关注 求 和 操作 。 
创建 reportdb.reportoo2 表 ， 如 下 所 示 。 


CREATE TABLE IF NOT EXISTS reportdb.reportoo2( 
accountnumber INT, 
last balance  DECIMAL(18, 9) 


CLUSTERED BY (firstname, lastname) INTO 1 BUCKETS 
STORED AS orc 


TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 
聚合 数据 。 

INSERT INTO TABLE reportdb.reportoo2 

SELECT 


dimaccount.accountnumber , 
sum(fctpersonaccount.balance) as last balance 
FROM 
organisedb.fctpersonaccount 
JOIN 
organisedb.dimaccount 
ON 
fctpersonaccount.accountkey - dimaccount.accountkey; 


xx EE Hive 代码 对 余额 进行 了 聚合 操作 ， 使 用 sum() 函 数 给 出 了 最 近 的 余额 度量 。 


8.2.3 评估 数据 集 市 
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当 你 需要 针对 持久 化 存储 的 特定 分 析 需 求 将 数据 仓库 分 割 成 小 型 分 析 模型 时 ， 就 要 用 到 数据 


集 市 的 概念 。 
你 可 能 出 于 下 述 原因 需要 数据 集 市 。 
O 按照 区 域 分 割 数据 ， 这 样 每 个 区 域 只 能 看 到 它 目 己 的 数据 。 
a 针对 堵 些 到 下 月 底 前 保持 静态 的 数据 创建 月 度 结果 。 
a 按 每 个 查询 缩减 数据 量 ， 以 便 提 升 性 能 。 
a 对 数据 仓库 进行 分 割 ， 将 数据 物理 存放 在 分 文 节点 的 服务 天上， 以 形成 数据 集 市 。 
为 实现 该 评 佑 过 程 ， 执 行 下 述 Hive 代码 。 
INSERT INTO TABLE organisedb.fctpersonaccount 
SELECT DISTINCT 
personaccountkey, 
personkey, 
accountkey, 
balance 
FROM 
transformdb.fctpersonaccount 
WHERE 


personaccountkey - 1 
ORDER BY personaccountkey, personkey , accountkey; 


这 上段 代 人 码 对 表 transformdb.fctpersonaccount 实施 分 割 操作 , 仅 回 表 organisedb. fctperson- 


account 插入 与 personaccountkey = 1 语句 相 匹 配 的 记录 。 
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这 可 以 用 于 针对 数据 仓库 的 特定 子 集 创 建 数据 集 市 。 | 
现在 你 已 经 了 解 了 数据 仓库 工作 的 基本 过 程 ， 下 面 来 构建 一 个 完整 的 数据 仓库 。 


8.3 ”掌握 数据 仓库 管理 


到 目前 为 止 ， 我 们 已 经 解释 了 通过 创建 数据 仓库 和 数据 集 市 来 构建 数据 仓库 模型 的 相关 理 
论 ， 下 面 儿 个 例子 展示 了 面向 简单 需求 集 的 构建 过 程 的 完整 周期 。 
我 们 使 用 了 源 自 “快速 信息 工厂 ”方法 的 “检索 -评估 -过 程 -转换 -组 织 -报表 ”设计 原则 


在 仔细 人 研究 完整 的 数据 仓库 示例 时 ， 我 们 将 探讨 支持 数据 仓库 构建 过 程 的 每 一 层 设计 ， 
注意 ”本章 的 下 一 部 分 就 是 对 数据 仓库 的 完整 处 理 了 。 如 果 你 坚持 读 完 本 章 剩 下 的 内 容 ， 就 会 
掌握 Hive 中 的 数据 仓库 。 你 会 发 现 ， 示 例 部 分 的 Hive 代码 有 助 于 你 进行 处 理 ， 而 且 你 
也 不 用 从 书本 上 照抄 它们 了 。 


数据 仓库 是 一 种 分 层 结构 ， 而 且 是 支持 你 处 理 业 务 需 求 ( 你 的 太阳 模型 ) 的 单元 。 
请 记 住 我 们 从 实践 中 总 结 的 如 下 建议 。 

a 仔细 计划 数据 仓库 结构 的 每 次 变更 ， 这 样 你 才能 成 功 。 

口 使 用 太阳 模型 来 验证 你 的 业务 需求 。 

口 要 遵循 处 理 规则 ! 

口 走 捷径 将 会 让 你 今后 付出 代价 。 


8.3.1 VERH 


你 需要 00rawdata 目录 下 的 示例 数据 。 需 要 下 面 这 些 CSV 文件 。 
D rawaccount.csv 文件 一 一 保存 了 10 000 条 记录 

O rawaddress.csv 文件 一 一 保存 了 220 182 条 记录 

Q rawaddresshistory.csv 文件 一 一 保存 了 100 条 记录 

O rawdatetime.csv 文件 一 一 保存 了 1 052 640 条 记录 

D rawfirstname.csv 文件 一 一 保存 了 5494 条 记录 

O rawlastname.csv 文件 保存 了 16 001 条 记录 

Q rawperson.csv 文件 一 一 保存 了 1000 条 记录 

现在 你 的 数据 已 经 装载 ， 让 我 们 构建 数据 仓库 吧 | 


8.3.2 检索 数据 库 
检索 数据 库 是 用 于 将 数据 从 外 部 数据 源 迁 移 到 Hive 数据 结构 中 的 数据 区 域 。 


迁移 到 Hive 数据 结构 中 的 数据 通常 采用 了 as-is 格式 。 直 接 从 外 部 数据 源 复制 该 数据 结构 以 
及 该 结构 中 所 包含 的 数据 。 
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为 什么 要 用 as-is x0? 


这 样 ， ITEE DR Rie ad Rede eee EE, 而 不 需要 依赖 于 其 他 源 系 
统 。 我 们 已 经 得 到 教训 ， 重 新 定义 格式 进行 处 理 并 不 总 是 符合 其 设计 初 衰 。 因 此 ， 在 Hive 中 
保留 原始 格式 ， 会 让 我 们 走 得 不 那么 艰难 


你 要 创建 一 个 名 为 retrievedb 的 数据 库 来 保存 导入 数据 


注意 ”本草 的 源 代码 可 以 从 图 灵 社 区 (http:/www.ituring.com.cn/book/1963) 下 载 。 请 查看 示例 
脚本 Retrieve001.txt 中 的 Hive 代码 


刚 开 始 ， 让 我 们 删除 已 有 的 retrievedb。 请 记 住 ， 你 此 前 已 创建 了 该 数据 库 
DROP DATABASE retrievedb CASCADE; 
现在 ， 重 新 创建 retrievedb 数据 库 ， 接 收 来 自 外 部 数据 源 的 数据 
CREATE DATABASE IF NOT EXISTS retrievedb; 
现在 你 要 创建 表 并 且 从 外 部 数据 源 装 载 数据 
爱 按照 下 面 的 步骤 来 痛 载 所 需 的 数据 
D 创建 表 并 且 装 载 rawfirstname.csv 文件 的 数据 


USE retrievedb; 
CREATE TABLE IF NOT EXISTS retrievedb.rawfirstname ( 


firstnameid string, 
firstname string, 
Sex string 


ROW FORMAT DELIMITED FIELDS TERMINATED BY ' 


J ) 


LOAD DATA LOCAL INPATH 'file:///root/exampledata/datawarehouse/O0rawdata/rawfirstname.csv' 
OVERWRITE INTO TABLE retrievedb.rawfirstname; 


(2) 创建 表 并 上 且 装载 rawlastname.csv 文件 的 数据 


CREATE TABLE IF NOT EXISTS retrievedb.rawlastname ( 
lastnameid string, 
lastname string 

) 

ROW FORMAT DELIMITED FIELDS TERMINATED BY ' 


) ) 


LOAD DATA LOCAL INPATH 'file:///root/exampledata/datawarehouse/O0rawdata/rawlastname.csv' 
OVERWRITE INTO TABLE retrievedb.rawlastname; 


(3) 创建 表 并 且 装 载 rawperson.csv 文件 的 数据 
CREATE TABLE IF NOT EXISTS retrievedb.rawperson ( 


persid * String; 
firstnameid string, 
lastnameid string 
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.ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 


LOAD DATA LOCAL INPATH 'file:///root/exampledata/datawarehouse/O0rawdata/rawperson.csv' 
OVERWRITE INTO TABLE retrievedb.rawperson; 


装载 额外 的 数据 
让 我 们 装载 更 多 的 数据 。( 参见 示例 脚本 Retrieve002.txt 中 的 Hive 代码 。) 
(1) 创建 表 并 且 装 载 rawdatetime.csv 文件 的 数据 。 


CREATE TABLE IF NOT EXISTS retrievedb.rawdatetime ( 


id string, datetimes string, monthname string, 

yearnumber string, monthnumber string, daynumber string, 

hournumber String, minutenumber string, ampm string 
) 


ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 


LOAD DATA LOCAL INPATH 'file:///root/exampledata/datawarehouse/O0rawdata/rawdatetime.csv' 
OVERWRITE INTO TABLE retrievedb.rawdatetime; 


参见 示例 脚本 Retrieve003.txt 中 的 Hive 代码 。 
(2) 创建 表 并 且 装 载 rawaddress.csv 文件 的 数据 。 


CREATE TABLE IF NOT EXISTS retrievedb.rawaddress ( 


id string, Postcode string, Latitude string, 

Longitude string, Easting String, Northing string, 

GridRef string, District string, Ward string, 

DistrictCode string, WardCode string, Country string, 

CountyCode string, Constituency string, TypeArea string 
| 


ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 


LOAD DATA LOCAL INPATH 'file:///root/exampledata/datawarehouse/O0rawdata/rawaddress.csv' 
OVERWRITE INTO TABLE retrievedb.rawaddress; 


(3) 创建 表 并 且 装 载 rawaddresshistory.csv 文件 的 数据 。 


CREATE TABLE IF NOT EXISTS retrievedb.rawaddresshistory ( 

id string, pid string, aid string, didi string, did2 string 
) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 


LOAD DATA LOCAL INPATH 'file:///root/exampledata/datawarehouse/O0rawdata/rawaddresshistory. 
csv' OVERWRITE INTO TABLE retrievedb.rawaddresshistory; 


参见 示例 脚本 Retrieve004.txt 中 的 Hive 代码 。 
(4) 创建 表 并 且 装 载 rawaccount.csv 文件 的 数据 。 


CREATE TABLE IF NOT EXISTS retrievedb.rawaccount ( 
id string, pid string, accountno string, balance string 


) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 


LOAD DATA LOCAL INPATH 'file:///root/exampledata/datawarehouse/O0rawdata/rawaccount .csv ' 
OVERWRITE INTO TABLE retrievedb.rawaccount; 
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你 已 经 完成 了 数据 仓库 的 数据 检索 层 并 且 竺 握 了 下 述 内 容 。 
a 创建 含有 分 隔 符 字 段 的 表 

a 从 分 隐 好 的 文件 中 沪 载 数据 

同一 Hive 代码 也 文 持 其 他 分 隅 符 。 

试 试用 竖 线 和 从 ( | ) 作为 分 隅 符 。 


CREATE TABLE IF NOT EXISTS retrievedb.rawaccountpipe ( 
id string, pid string, accountno string, balance string 


ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'; 


LOAD DATA LOCAL INPATH 'file:///root/exampledata/datawarehouse/O0rawdata/rawaccount.pipe' 
OVERWRITE INTO TABLE retrievedb.rawaccount; 


LE ora er ae A PY EEA, (eS. WRIT, 、 竖 线 符 和 空格 是 最 常用 的 。 


8.3.3 评估 数据 库 


评 佑 数据库 支 持 你 使 用 数据 质量 规则 来 评估 检索 数据 库 中 的 数据 是 否 质 量 民 好 。 
评估 过 程 基 本 上 是 将 数据 从 一 个 表 流 转 到 下 一 个 表 ， 以 确保 执行 特定 评 售 功能 的 过 程 。 
这 将 产生 一 系列 临时 表 ， 在 完成 该 过 程 之 后 ， 这 些 表 将 被 丢弃 。 


提示 。 建议 给 你 的 临时 表 加 上 一 个 编号 。 Bite, A firstname001 属于 firstname 数据 的 评估 
过 程 。 


为 了 支持 该 评估 过 程 ， 你 需要 创建 一 个 名 为 assessdb 的 数据 库 。 
参见 示例 脚本 Assess001.txt 中 的 Hive 代码 。 


1. 删除 评估 数据 库 


DROP DATABASE IF EXISTS assessdb CASCADE; 


2. 创建 评估 数据 库 


CREATE DATABASE IF NOT EXISTS assessdb; 


3. 创建 评估 firstname 的 表 


USE assessdb; 


现在 ， 评 估 层 用 于 评估 和 清理 来 自 检 索 层 的 Firstname 数据 。 


4. 创建 临时 表 firstname001 


CREATE TABLE IF NOT EXISTS assessdb.firstnameoo1 ( 
firstnameid string, 
firstname string, 
Sex string 
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CLUSTERED BY (firstnameid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


清除 firstnameoo1 表 中 的 数据 。 


TRUNCATE TABLE assessdb.firstname001 ; 


5. 从 firstname 数据 中 删除 标题 

第 一 个 评估 是 关于 firstname 数据 的 。 

通过 观察 retrievedb.rawfirstname， 我 们 发 现 由 于 输入 文件 和 数据 库 之 间 的 结构 不 匹配 ， 
我 们 错误 上 传 了 输入 文件 的 标题 。 

建议 采用 的 解决 方案 是 使 用 SELECT 语句 将 数据 集中 的 标题 直接 筛 选 出 来 ， 其 中 包含 一 个 
WHERE firstnameid <> '"id"' 子 句 。 | 


INSERT INTO TABLE assessdb.firstnameoo1 
SELECT firstnameid, firstname, sex 

FROM retrievedb.rawfirstname 

WHERE firstnameid «» '"id"'; 


6. 创建 临时 表 firstnameoo2 
你 需要 创建 表 assessdb.firstname002， 然 后 执行 INSERT 语句 来 评估 数据 。 


CREATE TABLE IF NOT EXISTS assessdb.firstname002 ( 
firstnameid string, 
firstname string, 
Sex string 


CLUSTERED BY (firstnameid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'- 'ZLIB', 'orc.create.index'-'true'); 


7. 清除 firstnameoo2 表 中 的 所 有 数据 


TRUNCATE TABLE assessdb .firstname002 ; 


8. 删除 firstname 数据 中 的 空格 

现在 你 已 经 有 了 去 除 标题 的 数据 集 ， 可 以 评估 记录 的 质量 了 。 

我 们 发 现 ， 由 于 对 源 系统 进行 了 质量 检查 ， 数 据 集 中 值 的 前 后 可 能 存在 空格 。 

为 了 解决 这 个 问题 ， 我 们 使 用 Hive PHYA E KK 

Q 1trim 一 一 从 左 侧 开始 消除 取 值 之 前 的 所 有 空格 

D rtrim 一 一 从 右 侧 开始 消除 取 值 之 后 的 所 有 空格 

我 们 还 可 以 使 用 rtrim(ltrim()) 将 这 两 个 盟 数 组 合成 一 个 果 数 链 。 

为 了 完成 该 评估 规则 ， 我 们 创建 一 条 SELECT 语句 ， 将 新 函数 应 用 到 firstname001 表 中 的 数 
据 ， 然 后 将 这 些 数据 搬 人 到 名 为 firstname002 的 表 中 。 
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INSERT INTO TABLE assessdb.firstnameo02 
SELECT firstnameid, rtrim(ltrim(firstname)), rtrim(ltrim(sex)) 
FROM assessdb. firstnameoo1; 


9. 创建 临时 表 firstname003 
你 需要 创建 表 assessdb.firstname003， 然 后 执行 INSERT 语句 。 


CREATE TABLE IF NOT EXISTS assessdb.firstname003 ( 


firstnameid int, 

firstname string, 

Sex string 
) 


CLUSTERED BY (firstnameid) INTO 1 BUCKETS 
STORED AS orc 


TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


10. 清除 firstnameoo3 表 中 的 所 有 数据 


TRUNCATE TABLE assessdb.firstnameo03; 


11. 转换 firstname 数据 中 的 数据 类 型 

在 对 数据 集 的 进一步 检查 中 ， 我 们 发 现 了 另外 两 个 问题 。 

O 我 们 必须 将 firstnameid 从 字符 串 转 换 为 整 型 数据 类 型 。 

a 我 们 必须 删除 firstname 和 sex 数据 值 中 一 个 不 需要 的 额外 字符 。 
Hive 也 具有 可 处 理 这 些 问 题 的 内 部 函数 。 


提示 “我 们 建议 你 研究 一 下 附录 B 中 的 内 部 函数 ， 了 解 它们 如 何 工作 以 及 如 何 将 它们 整合 成 一 


条 链 。 这 些 都 是 你 的 工具 只 要 你 了 解 并 等 握 它们 . 


为 了 完成 该 评估 规则 ， 我 们 创建 了 一 条 SELECT 语句 来 将 新 函数 应 用 于 firstnameoo2 中 的 数 


据 ， 然 后 将 这 些 数据 插入 到 名 为 firstnameoo3 的 表 中 。 


INSERT INTO TABLE assessdb.firstname003 

SELECT 
CAST(firstnameid as INT), SUBSTRING(firstname,2,LENGTH(firstname)-2), 
SUBSTRING(sex, 2, LENGTH(sex)-2) 

FROM assessdb. firstnameoo?; 


12. 创建 firstname X 


CREATE TABLE IF NOT EXISTS assessdb. firstname ( 
firstnameid int, 
firstname string, 
Sex string 
) 
CLUSTERED BY (firstnameid) INTO 1 BUCKETS 
STORED AS orc 


TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 
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13. 删除 firstname 表 中 的 所 有 数据 


TRUNCATE TABLE assessdb. firstname; 


14. 将 数据 迁移 到 firstname HH 

很 好 ， 现 在 我 们 的 assessdb.firstnameoo3 表 中 有 了 一 个 高 质量 的 数据 集 . 

现在 ， 把 数据 集 迁 移 到 最 终 的 评估 表 

为 了 完成 该 评估 规则 ， 我 们 针对 表 firstname003 创建 了 一 条 SELECT 语句 ， 然 后 将 数据 插入 
到 firstname 表 中 。 


INSERT INTO TABLE assessdb. firstname 
SELECT 
firstnameid, 
firstname, 
Sex 
FROM 
assessdb. firstname003 
ORDER BY firstnameid; 


提示 。 你 可 能 会 被 困 住 , 这 时 可 以 直接 回 到 上 一 步 。 注意 要 针对 表 firstname 进行 插入 操作 ， 而 
不 是 表 firstname003。 这 也 是 一 个 有 效 过 程 ， 但 是 最 好 先 清理 数据 集 ， 然 后 将 其 加 载 到 
最 终 的 表 中 。 原 因 如 下 
你 可 以 在 评估 链 中 执行 额外 的 步骤 ， 而 不 会 影响 最 终 表 中 已 有 的 数据 集 。 这 有 助 于 未 来 
的 发 展 。 
使 用 筛选 器 和 函数 总 是 比 直接 进行 选择 和 插入 操作 更 慢 。 因 此 ， 如 果 你 首先 使 用 筛选 器 
和 函数 来 准备 数据 集 ， 然 后 直接 插入 数据 ， 那 么 最 终 表 在 清空 表 和 插入 新 数据 集 的 间隙 
将 出 现 短 时 间 的 不 稳定 。 


15. 评估 firstname 表 中 的 数据 


SELECT 
firstnameid, 
firstname, 
Sex 
from 
assessdb.firstname 
SORT BY 
firstname LIMIT 10; 


16. 你 掌握 了 什么 

口 可 以 删除 不 需要 的 记录 ， 即 标题 

Q 可 以 删除 数据 记录 中 不 需要 的 空格 

Q 可 以 更 改 数据 集 的 数据 类 型 

现在 ， 你 可 以 使 用 下 一 组 数据 ， 在 lastname 表 中 应 用 你 学 到 的 新 知识 。 


8.3 掌握 数据 仓库 管理 151 


17. 创建 评估 lastname 的 表 


CREATE TABLE IF NOT EXISTS assessdb.lastnameoo1 ( 
lastnameid string, 
lastname string 
) 
CLUSTERED BY (lastnameid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE assessdb. lastnameoo1; 


INSERT INTO TABLE assessdb.lastname001 
SELECT lastnameid, lastname 
FROM retrievedb.rawlastname 
WHERE lastnameid <> '"id"'; 


CREATE TABLE IF NOT EXISTS assessdb.lastnameO02 ( 
lastnameid string, 
lastname string 
) 
CLUSTERED BY (lastnameid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE assessdb.lastnameo02; 


INSERT INTO TABLE assessdb.lastname002 
SELECT lastnameid, rtrim(ltrim(lastname)) 
FROM assessdb. lastnameo01; 


CREATE TABLE IF NOT EXISTS assessdb.lastnameo03 ( 
lastnameid ine, 
lastname string 
) 
CLUSTERED BY (lastnameid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'='ZLIB','orc.create.index'='true'); 


TRUNCATE TABLE assessdb.lastname003; 


INSERT INTO TABLE assessdb.lastname003 
SELECT CAST(lastnameid as INT), SUBSTRING(lastname,2,LENGTH(lastname)-2) 
FROM assessdb.lastname002; 


CREATE TABLE IF NOT EXISTS assessdb.lastname ( 
lastnameid int, 
lastname string 
) 
CLUSTERED BY (lastnameid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB' ,'orc.create.index'-'true'); 


TRUNCATE TABLE assessdb. lastname; 
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INSERT INTO TABLE assessdb. lastname 
SELECT lastnameid, lastname 

FROM assessdb.lastname003 

ORDER BY lastnameid; 


18. 评估 lastname 表 中 的 数据 


SELECT 
lastnameid, 
lastname 
from 
assessdb. lastname 
SORT BY 
lastname LIMIT 10; 


如 果 你 看 到 10 条 记录 ， 那 么 就 已 经 创建 了 下 一 个 表 。 让 我 们 继续 。 
19. 创建 评估 person 的 表 


CREATE TABLE IF NOT EXISTS assessdb.personoo1 ( 


persid string, 
firstnameid string, 
lastnameid string 


) 
CLUSTERED BY (persid) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE assessdb.persono01; 
INSERT INTO TABLE assessdb.personoO1 
SELECT persid, firstnameid, lastnameid 
FROM retrievedb.rawperson 


WHERE persid «» '"id"'; 


CREATE TABLE IF NOT EXISTS assessdb.personoO2 ( 


persid int, 
firstnameid int, 
lastnameid int 


) 
CLUSTERED BY (persid) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE assessdb.person002; 


INSERT INTO TABLE assessdb.persono02 
SELECT CAST(persid as INT), CAST(firstnameid as INT), CAST(lastnameid as INT) 
FROM assessdb.personO01; 


CREATE TABLE IF NOT EXISTS assessdb.person ( 
persid int, 
firstnameid int, 
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lastnameid int 


) 
CLUSTERED BY (persid) INTO 1 BUCKETS 
STORED AS orc 


TBLPROPERTIES('transactional' = 'true','orc.compress'='ZLIB', 'orc.create.index'-'true'); 
TRUNCATE TABLE assessdb.person; 
INSERT INTO TABLE assessdb.person 


SELECT persid, firstnameid, lastnameid 
FROM assessdb.persono02; 


下 一 个 表 类 型 是 组 合 表 。 组 合 表 由 多 个 源 表 构 成 。 
20. 创建 评估 personfull 的 表 


CREATE TABLE IF NOT EXISTS assessdb.personfull( 


persid int, 
firstnameid int, 
firstname string, 
lastnameid int, 
lastname string, 
Sex string 


) 
CLUSTERED BY (persid) INTO 1 BUCKETS 
STORED AS orc 


TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE assessdb.personfull; 

让 我 们 来 掌握 该 组 合 表 类 型 。 

INSERT INTO TABLE assessdb.personfull 

SELECT person.persid, person.firstnameid, firstname. firstname, person. lastnameid, 
lastname. lastname, firstname.sex 

FROM assessdb. firstname 

JOIN assessdb.person 

ON firstname.firstnameid = person. firstnameid 


JOIN assessdb. lastname 
ON lastname. lastnameid = person. lastnameid; 


注意 ”现在 可 以 从 检索 数据 和 其 他 评估 表 的 组 合 直 接 创 建 表 。 你 可 以 使 用 连接 操作 实现 组 合 表 。 
参见 第 $ 章 了 解 关 于 连接 操作 的 更 多 细节 。 


21. 清空 评估 数据 库 

下 一 步 是 整理 评估 层 。 这 为 下 面 的 步骤 提供 了 额外 的 空间 。 
DROP TABLE assessdb.firstname001; 

DROP TABLE assessdb.firstname002; 


DROP TABLE assessdb. firstname003; 
DROP TABLE assessdb. lastnameoo1; 
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DROP TABLE assessdb. lastname002; 
DROP TABLE assessdb. lastname003; 
DROP TABLE assessdb.person001; 
DROP TABLE assessdb.person002; 


查看 示例 脚本 Assess002.txt 中 的 Hive 代码 。 
现在 你 已 经 掌握 了 评估 数据 的 过 程 ， 可 以 在 更 大 的 数据 集 上 练习 技能 


22. 创建 评估 datetime 的 表 


CREATE TABLE IF NOT EXISTS assessdb.datetimeoo1 ( 


id string, datetimes string, monthname string, 
yearnumber string, monthnumber string, daynumber string, 
hournumber string, minutenumber string, ampm string 


) 
CLUSTERED BY (id) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB','orc.create.index'-'true'); 


TRUNCATE TABLE assessdb.datetimeoo1; 


INSERT INTO TABLE assessdb.datetimeoo1 

SELECT 
id, datetimes, monthname, yearnumber, monthnumber, 
daynumber, hournumber, minutenumber, ampm 

FROM retrievedb.rawdatetime 

WHERE id <> '"id"'; 


CREATE TABLE IF NOT EXISTS assessdb.datetimeoo2 ( 


id string, datetimes string, monthname string, 
yearnumber string, monthnumber string, daynumber string, 
hournumber string, minutenumber string, ampm string 


) 
CLUSTERED BY (id) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE assessdb.datetime002; 


INSERT INTO TABLE assessdb.datetimeoo2 

SELECT 
id, rtrim(ltrim(datetimes)), rtrim(ltrim(monthname)), 
rtrim(ltrim(yearnumber)), rtrim(ltrim(monthnumber)), 
rtrim(ltrim(daynumber)), rtrim(ltrim(hournumber)), 
rtrim(ltrim(minutenumber)), rtrim(ltrim(ampm)) 

FROM assessdb.datetimeoo1; 


CREATE TABLE IF NOT EXISTS assessdb.datetimeo03 ( 


id int, datetimes string, monthname string, 
yearnumber int, monthnumber int, daynumber int, 
hournumber int, minutenumber int, ampm string 


) 
CLUSTERED BY (id) INTO 1 BUCKETS 
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STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB','orc.create.index'-'true'); 


TRUNCATE TABLE assessdb .datetime003 ; 


INSERT INTO TABLE assessdb .datetime003 

SELECT 
CAST(id as INT), SUBSTRING(datetimes,2,LENGTH(datetimes)-2), 
SUBSTRING(monthname, 2, LENGTH(monthname)-2), CAST(yearnumber as INT), 
CAST(monthnumber as INT), CAST(daynumber as INT), CAST(hournumber as INT), 
CAST(minutenumber as INT), SUBSTRING(ampm, 2, LENGTH(ampm) - 2) 

FROM assessdb.datetime002; 


CREATE TABLE IF NOT EXISTS assessdb.dates ( 


Id int, datetimes string, monthname string, 

yearnumber int, monthnumber int, daynumber int, 

hournumber int, minutenumber int, ampm string 
) 


CLUSTERED BY (id) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB','orc.create.index'-'true'); 


TRUNCATE TABLE assessdb.dates; 


INSERT INTO TABLE assessdb.dates 

SELECT 
id, datetimes, monthname, yearnumber, monthnumber, daynumber, 
hournumber, minutenumber, ampm 

FROM assessdb.datetime003; 


这 很 容易 ， 因 为 你 已 经 掌握 了 基本 规则 。 你 并 不 受 数据 集 大 小 的 限制 。 


3. 清空 评估 数据 库 
sea eer 


DROP TABLE assessdb.datetimeoo1; 
DROP TABLE assessdb.datetimeoo?2; 
DROP TABLE assessdb.datetimeoo3; 


查看 示例 脚本 Assess003.txt 中 的 Hive 代码 。 


24. 创建 评估 address 的 表 
接 下 来 ， 你 将 通过 使 用 address 数据 掌握 更 “ 宽 ” 的 数据 集 。 
你 已 拥有 技能 ， 只 需要 运用 已 掌握 的 规则 。 


CREATE TABLE IF NOT EXISTS assessdb.address001 ( 
id STRING, postcode STRING, latitude STRING, longitude STRING, 
easting STRING,northing STRING, gridref STRING, district STRING, 
ward STRING, districtcode STRING, wardcode STRING, country STRING, 
countycode STRING, constituency STRING, typearea STRING 

) 

CLUSTERED BY (id) INTO 1 BUCKETS 

STORED AS orc 
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TBLPROPERTIES('transactional' = ‘true’, 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 
TRUNCATE TABLE assessdb.addressO01; 


INSERT INTO TABLE assessdb.addresso01 
SELECT 
id, postcode, latitude, longitude, easting, northing, gridref, district, 
ward, districtcode, wardcode, country, countycode, constituency, typearea 
FROM retrievedb.rawaddress 
WHERE id «» '"id"'; 


CREATE TABLE IF NOT EXISTS assessdb.addressoo2 ( 
id STRING, postcode STRING, latitude STRING, longitude STRING, 
easting STRING, northing STRING, gridref STRING, district STRING, 
ward STRING, districtcode STRING, wardcode STRING, country STRING, 
countycode STRING, constituency STRING, typearea STRING 


CLUSTERED BY (id) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE assessdb.addressO02; 


INSERT INTO TABLE assessdb.addressoO2 

SELECT 
id, rtrim(ltrim(postcode)), rtrim(ltrim(latitude)), rtrim(ltrim(longitude)), 
rtrim(ltrim(easting)), rtrim(ltrim(northing)), rtrim(ltrim(gridref)), 
rtrim(ltrim(district)), rtrim(ltrim(ward)), rtrim(ltrim(districtcode)), 
rtrim(ltrim(wardcode)), rtrim(ltrim(country)), rtrim(ltrim(countycode)), 
rtrim(ltrim(constituency)), rtrim(ltrim(typearea)) 

FROM assessdb.addresso01; 


CREATE TABLE IF NOT EXISTS assessdb.addresso03 ( 
id INT, postcode STRING, latitude DECIMAL(18, 9), longitude DECIMAL(18, 9), 
easting INT, northing INT, gridref STRING, district STRING, ward STRING, 
districtcode STRING, wardcode STRING, country STRING, countycode STRING, 
constituency STRING, typearea STRING 
) 
CLUSTERED BY (id) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'- 'true'); 


TRUNCATE TABLE assessdb.addresso03; 


INSERT INTO TABLE assessdb.address003 

SELECT 
CAST(id as INT), SUBSTRING(postcode,2, LENGTH(postcode)-2), 
CAST(latitude as DECIMAL(18, 9)), CAST(longitude as DECIMAL(18, 9)), 
CAST(easting as INT), CAST(northing as INT), 
SUBSTRING(gridref,2,LENGTH(gridref)-2), 
SUBSTRING(district,2,LENGTH(district)-2), 
SUBSTRING(ward,2,LENGTH(ward)-2), 
SUBSTRING(districtcode,2,LENGTH(districtcode)-2), 
SUBSTRING(wardcode,2,LENGTH(wardcode)-2), 
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SUBSTRING(country, 2, LENGTH(country)-2), 
SUBSTRING(countycode, 2, LENGTH(countycode)-2), 
SUBSTRING(constituency, 2, LENGTH(constituency)-2), 
SUBSTRING(typearea, 2, LENGTH(typearea)-2) 

FROM assessdb.address002; 


CREATE TABLE IF NOT EXISTS assessdb.postaddress ( 
id INT, postcode STRING, latitude DECIMAL(18, 9), 
longitude DECIMAL(18, 9), easting INT, northing INT, 
gridref STRING, district STRING, ward STRING, districtcode STRING, 
wardcode STRING, country STRING, countycode STRING, 
constituency STRING, typearea STRING 
) 
CLUSTERED BY (id) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE assessdb.postaddress 
SELECT 
id, postcode, latitude, longitude, easting, northing, gridref, district, 
ward, districtcode, wardcode, country, countycode, constituency, typearea 
FROM 
assessdb.addresso03; 


CREATE TABLE IF NOT EXISTS assessdb.addresshistory001 ( 
id STRING, pid STRING, aid STRING, did1 STRING, did2 STRING 
) 
CLUSTERED BY (id) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE assessdb.addresshistory001; 


INSERT INTO TABLE assessdb.addresshistory0o01 
SELECT 
id, pid, aid, did1, did2 
FROM 
retrievedb.rawaddresshistory 
WHERE id <> '"id"'; 


CREATE TABLE IF NOT EXISTS assessdb.addresshistory002 ( 
id INT, pid INT, aid INT, didi INT, did2 INT 
) 
CLUSTERED BY (id) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE assessdb.addresshistory002; 


INSERT INTO TABLE assessdb.addresshistory002 

SELECT i 
CAST(id as INT), CAST(pid as INT), CAST(aid as INT), 
CAST(did1 as INT), CAST(did2 as INT) 

FROM 
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assessdb.addresshistory001; 


CREATE TABLE IF NOT EXISTS assessdb.addresshistory ( 
id INT, pid INT, aid INT, didi INT, did2 INT 
) 
CLUSTERED BY (id) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE assessdb.addresshistory; 


INSERT INTO TABLE. assessdb.addresshistory 
SELECT 

id, pid, aid, didi, did2 
FROM 

assessdb.addresshistory002; 


同样 ， 字 段 的 数量 对 规则 没有 影响 。 继 续 将 规则 应 用 于 数据 集 。 


25. 清空 address 表 


DROP TABLE assessdb.address001; 
DROP TABLE assessdb.addresso02; 
DROP TABLE assessdb.addressO03; 


DROP TABLE assessdb.addresshistoryo01; 
DROP TABLE assessdb.addresshistory002; 


26. 评估 address 表 


SELECT 
addresshistory.id, addresshistory.pid, personfull.firstname, 
personfull.lastname, addresshistory.aid, postaddress.postcode, 
addresshistory.did1, datesi.datetimes as startdate, 
addresshistory.did2, dates2.datetimes as enddate 
FROM 
assessdb.addresshistory 
JOIN 
assessdb.personfull ON addresshistory.pid - personfull.persid 
JOIN 
assessdb.postaddress ON addresshistory.aid - postaddress.id 
JOIN 
assessdb.dates as dates1 ON addresshistory.did1 = datesi.id 
JOIN 
assessdb.dates as dates2 ON addresshistory.did2 - dates2.id 
LIMIT 20; 


如 果 你 创建 了 数据 仓库 的 address 部 分 ， 现 在 可 以 看 到 20 条 记录 。 让 我 们 装载 更 多 数据 ， 
你 应 该 掌握 该 过 程 。 
查看 示例 脚本 Assess004.txt 中 的 Hive 代码 。 
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27. 创建 评估 account 的 表 


CREATE TABLE IF NOT EXISTS assessdb.accountoo1 ( 
id STRING, pid STRING, accountno STRING, balance STRING 
) 
CLUSTERED BY (id) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB' , 'orc.create.index'-'true'); 


TRUNCATE TABLE assessdb.account001; 


INSERT INTO TABLE assessdb.accountoOo1 
SELECT 
id, pid, accountno, balance 
FROM retrievedb.rawaccount 
WHERE id <> '"id"'; 


CREATE TABLE IF NOT EXISTS assessdb.accountoO2 ( 
id STRING, pid STRING, accountno STRING, balance STRING 
) 
CLUSTERED BY (id) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress"-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE assessdb.account002; 


INSERT INTO TABLE assessdb.account002 
SELECT 
id, pid, rtrim(ltrim(accountno)), balance 
FROM assessdb.account0o01; 
CREATE TABLE IF NOT EXISTS assessdb.account003 ( 
id INT, pid INT, accountid INT, accountno string, balance DECIMAL(18, 9) 
) 
CLUSTERED BY (id) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 
TRUNCATE TABLE assessdb.account003; 


INSERT INTO TABLE assessdb.account003 
SELECT 
CAST(id as INT), CAST(pid as INT), CAST(accountno as INT), 
CONCAT('AC',accountno), CAST(balance as DECIMAL(18, 9)) 
FROM assessdb.account002; 


CREATE TABLE IF NOT EXISTS assessdb.account ( 
id INT, pid INT, accountid INT, accountno STRING, balance DECIMAL(18, 9) 


) 
CLUSTERED BY (id) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES('transactional' = ‘true’, 'orc.compress'='ZLIB','orc.create.index'='true'); 


TRUNCATE TABLE assessdb.account; 


INSERT INTO TABLE assessdb.account 
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: SELECT 
id, pid, accountid, accountno, balance 
FROM 
assessdb.account003; 


28. 清空 account 的 评估 表 


DROP TABLE assessdb.account0o01; 
DROP TABLE assessdb.account002; 
DROP TABLE assessdb.account003; 


你 现在 已 经 完成 了 本 书 的 评 佑 层 。 做 得 很 好 ! 

如 果 你 研究 了 附录 B 中 的 男 数 ,就 可 以 掌握 那些 可 以 在 评估 层 处 理 过 程 中 对 数据 进行 修改 的 
PRA 

现在 你 可 以 进入 下 一 层 了 。 


8.3.4 过程 数 据 库 


过 程 数据 库 构建 为 Data Vault, Data Vault 由 Dan Linstedt 设计， 这 种 数据 库 建 模 技 术 用 于 提 
供 长 期 、 按 日 期 编排 的 数据 存储 ， 如 图 8-20 所 示 。 


图 8-20 ”基本 Data Vault 结构 


Data Vault 的 基本 结构 包含 下 面 3 种 结构 。 
口 中 心 表 : 包含 一 个 唯一 业务 键 的 列表 ， 这 些 键 几乎 没有 变化 的 趋势。 
O 链接 表 : 业务 键 之 则 的 关联 和 事务 人 处理 被 记录 为 链接 表 。 这 些 结 构 用 于 处 理 数据 集中 的 


关系 。 
O DER: 中 心 表 和 链接 表 构 成 了 Data Vault 的 核心 结构 ， 而 详细 的 属性 信息 则 存放 在 被 称 
为 卫星 表 的 隔离 表 中 。 


要 了 解 更 多 信息 ， 请 研究 Data Vault 的 概念 。 
创建 一 个 名 为 processdb 的 数据 库 来 保存 过 程 数 据 的 结构 。 


CREATE DATABASE IF NOT EXISTS processdb; 


你 创建 的 第 一 个 表 是 personhub。 该 中 心 表 包括 : 
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O 中 心 表 的 键 id 

O 业务 键 keyid 

口 两 个 自然 键 Firstname 和 lastname 

USE processdb; 

CREATE TABLE IF NOT EXISTS processdb.personhub ( 
id INT, 
keyid STRING, 


firstname STRING, 
lastname STRING 


) 

CLUSTERED BY (id) INTO 1 BUCKETS 

STORED AS orc 

TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


如 果 你 在 数据 完整 性 方面 存在 问题 或 者 需要 重新 构建 中 心 表 , 那么 就 应 该 用 几 个 键 来 确保 将 
来 能 够 处 理 任何 数据 重 构 。 在 本 例 中 ， 你 可 以 使 用 keyid 和 firstname + lastname 作为 同一 数据 
集 的 两 个 不 同 的 键 。 

你 创建 的 第 2 个 表 为 personsexsatellite。 该 卫星 表 包 括 : 

a 中 心 表 键 id | 

O 3 H personhub 表 的 业务 键 keyid 

O sex 属性 

O 当 装 载 数据 时 用 于 记录 时 间 戳 的 timestamp 


CREATE TABLE IF NOT EXISTS processdb.personsexsatellite ( 


id INT, 

keyid STRING, 
Sex STRING, 
timestmp BIGINT 


) 
CLUSTERED BY (id) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); Ue 


你 创建 的 第 3 个 表 为 person person link。 它 建立 了 一 个 人 与 另 一 个 人 的 业务 关系 。 
该 链接 表 包 括 : | 

OQ 链接 表 键 id 

O 人 员 中 心 表 键 personid1 

O 人 员 中 心 表 键 personid2 

Hive 代码 如 下 。 


CREATE TABLE IF NOT EXISTS processdb.person person link( 
id INT, 
personid1 INT, 
personid2 INT 


) 
CLUSTERED BY (id, personidi, personid2) INTO 1 BUCKETS 
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‘STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


参见 示例 脚本 Process001.txt 中 的 Hive 代码 。 它 保存 了 与 过 程 相关 的 数据 结构 。 
你 现在 可 以 轻松 地 完成 代码 了 ， 因 为 你 之 前 使 用 过 这 样 的 Hive 代码 ， 现 在 只 是 创建 了 不 同 
的 数据 结构 而 已 。 


DROP DATABASE processdb CASCADE ; 


CREATE DATABASE IF NOT EXISTS processdb; 
USE processdb; 


CREATE TABLE IF NOT EXISTS processdb.personhub ( 
id INT, 
keyid STRING, 
firstname STRING, 
lastname STRING 
) 
CLUSTERED BY (id) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


CREATE TABLE IF NOT EXISTS processdb.personhuboo1 ( 
firstname STRING, 
lastname STRING 
) 
CLUSTERED BY (firstname, lastname) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.personhub001; 


INSERT INTO TABLE processdb.personhub001 
SELECT DISTINCT 

firstname, 

lastname 
FROM 

assessdb.personfull; 


CREATE TABLE IF NOT EXISTS processdb.personhuboO2 ( 
rid BIGINT, 
tid BIGINT, 
firstname STRING, 
lastname STRING 
) 
CLUSTERED BY (rid, tid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.personhub002; 


INSERT INTO TABLE processdb.personhub002 
SELECT 
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ROW NUMBER() OVER (ORDER BY firstname, lastname), 
unix timestamp(), 
firstname, 
lastname 
FROM 
processdb.personhub001; 


CREATE TABLE IF NOT EXISTS processdb.personhubo03 ( 
keyid STRING, 
firstname STRING, 
lastname STRING 
) 
CLUSTERED BY (keyid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB' , 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.personhub003; 


INSERT INTO TABLE processdb.personhub003 
SELECT 

CONCAT(tid, '7', rid), 

firstname, 

lastname 
FROM 

processdb.personhub002; 


CREATE TABLE IF NOT EXISTS processdb.personhub004 ( 
keyid STRING, 
firstname STRING, 
lastname STRING, 
CDC STRING 
) 
CLUSTERED BY (keyid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'- 'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.personhub004; 


INSERT INTO TABLE processdb.personhub004 
SELECT 
A.keyid, 
A.firstname, 
A.lastname, 
B.keyid 
FROM 
processdb.personhub003 AS A 
LEFT JOIN 
processdb.personhub AS B 
ON 
A.firstname = B.firstname AND A.lastname = B.lastname; 


CREATE TABLE IF NOT EXISTS processdb.personhuboos ( 
keyid STRING, 
firstname STRING, 
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lastname STRING 
) 
CLUSTERED BY (keyid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = ‘true','orc.compress'='ZLIB','orc.create.index'='true'); 


TRUNCATE TABLE processdb.personhub005 ; 


INSERT INTO TABLE processdb.personhub005 
SELECT 
keyid, 
firstname, 
lastname 
FROM 
processdb.personhub004 
WHERE CDC IS NULL; 


INSERT INTO TABLE processdb.personhub005 
SELECT 

keyid, 

firstname, 

lastname 
FROM 

processdb.personhub; 


TRUNCATE TABLE processdb.personhub; 


INSERT INTO TABLE processdb.personhub 
SELECT 
ROW NUMBER() OVER (ORDER BY keyid), 
keyid, 
firstname, 
lastname 
FROM 
processdb.personhub005; 


DROP TABLE processdb.personhub001; 
DROP TABLE processdb.personhub002; 
DROP TABLE processdb.personhub003; 
DROP TABLE processdb.personhub004 ; 


CREATE TABLE IF NOT EXISTS processdb.personsexsatelliteoO1 ( 
keyid STRING, 
Sex STRING 
) 
CLUSTERED BY (keyid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.personsexsatelliteO01; 
INSERT INTO TABLE processdb.personsexsatelliteO01 


SELECT DISTINCT 
A.keyid, 


8.3 掌握 数据 仓库 管理 165 


B.sex 
FROM 
processdb.personhub0O05 as A 
JOIN 
assessdb.personfull AS B 
ON 
A.firstname - B.firstname AND A.lastname - B.lastname; 


CREATE TABLE IF NOT EXISTS processdb.personsexsatellite ( 


id INT, 

keyid STRING, 

Sex STRING, 

timestmp BIGINT 
) 


CLUSTERED BY (id) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.personsexsatellite; 


INSERT INTO TABLE processdb.personsexsatellite 
SELECT 

ROW NUMBER() OVER (ORDER BY keyid), 

keyid, 

Sex, 

unix timestamp() 
FROM 

processdb.personsexsatelliteO01; 


DROP TABLE processdb.objecthubo01; 
DROP TABLE processdb.personsexsatelliteoo1; 


你 的 过 程 层 进展 良好 。 做 得 好 | 
参见 示例 脚本 Process002.txt 中 的 Hive 代码 。 它 保存 了 所 有 与 对 象 相关 的 数据 结构 。 


USE processdb; 


CREATE TABLE IF NOT EXISTS processdb.objecthub ( 
id int, 
objecttype string, 
objectname string, 
objectid int 
) 
CLUSTERED BY (id) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB' , 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.objecthub; 


CREATE TABLE IF NOT EXISTS processdb.objecthuboo1 ( 
objecttype string, 
objectname string, 
objectid int 

) 
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‘CLUSTERED BY (objecttype, objectname,objectid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = ‘true’, 'orc.compress'='ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.objecthub001; 


INSERT INTO TABLE processdb.objecthuboo1 
SELECT DISTINCT 

‘intangible’, 

'"bankaccount', 

accountid 
FROM 

assessdb.account ; 


TRUNCATE TABLE processdb.objecthub; 


INSERT INTO TABLE processdb.objecthub 
SELECT DISTINCT 
ROW NUMBER() OVER (ORDER BY objecttype,objectname,objectid), 
objecttype, 
objectname, 
objectid 
FROM 
processdb.objecthub001; 


CREATE TABLE IF NOT EXISTS processdb.objectbankaccountsatelliteooO1 ( 


accountid int, 
transactionid int, 
balance DECIMAL(18, 9) 


) 
CLUSTERED BY (accountid,transactionid) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.objectbankaccountsatelliteO01; 


INSERT INTO TABLE processdb.objectbankaccountsatellite0001 
SELECT 

accountid, 

id as transactionid, 

balance 
FROM 

assessdb.account ; 


CREATE TABLE IF NOT EXISTS processdb.objectbankaccountsatellite ( 


id int, 

accountid int, 
transactionid iit 

balance DECIMAL(18, 9), 
timestmp bigint 


) 
CLUSTERED BY (id) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 
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TRUNCATE TABLE processdb.objectbankaccountsatellite; 


INSERT INTO TABLE processdb.objectbankaccountsatellite 
SELECT 
ROW NUMBER() OVER (ORDER BY accountid,transactionid), 
accountid, 
transactionid, 
balance, 
unix timestamp() 
FROM 
processdb.objectbankaccountsatellite0001; 


DROP TABLE processdb.objectbankaccountsatellite0001; 
DROP TABLE processdb.objecthubo01; 


More progress ... Just keep on running the Hive code. 


更 多 的 过 程 …… 继 续 运行 Hive 代码 。 
参见 示例 脚本 Process003.txt 中 的 Hive 代码 。 其 中 保存 了 所 有 与 位 置 相 关 的 数据 结构 。 


USE processdb; 


CREATE TABLE IF NOT EXISTS processdb.locationhub ( 
id INT, 
locationtype STRING, 
locationname STRING, 
locationid INT 
) 
CLUSTERED BY (id) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB','orc.create.index'-'true'); 


TRUNCATE processdb.locationhub; 


CREATE TABLE IF NOT EXISTS processdb.locationhuboo1 ( 
locationtype STRING, 
locationname STRING, 
locationid INT 

) 


CLUSTERED BY (locationtype, locationname,locationid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES( ‘transactional’ = ‘true’, 'orc.compress'-'ZLIB' ,'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.locationhub001; 


INSERT INTO TABLE processdb.locationhuboo1 
SELECT DISTINCT 

‘intangible’, 

'geospace', 

id as locationid 
FROM 

assessdb.postaddress; 
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.TRUNCATE TABLE processdb.locationhub; 


INSERT INTO TABLE processdb.locationhub 
SELECT DISTINCT 
ROW NUMBER() OVER (ORDER BY locationtype, locationname, locationid), 
locationtype, 
locationname, 
locationid 
FROM 
processdb.locationhub001; 


CREATE TABLE IF NOT EXISTS processdb. locationgeospacesatelliteooo1 ( 


locationid INT, postcode STRING, 
latitude DECIMAL(18, 9), longitude DECIMAL(18, 9), 
easting INT, northing INT, 

gridref STRING, district STRING, 

ward STRING, districtcode STRING, 
wardcode STRING, country STRING, 
countycode STRING, constituency STRING, 
typearea STRING 


) 
CLUSTERED BY (locationid) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.locationgeospacesatellite0001; 


INSERT INTO TABLE processdb.locationgeospacesatelliteo001 
SELECT 
id as locationid, postcode, latitude, longitude, easting, northing,gridref, 
district, ward, districtcode, wardcode, country, countycode, 
constituency, typearea 
FROM 
assessdb.postaddress; 
CREATE TABLE IF NOT EXISTS processdb.locationgeospaceisatellite ( 


id INT, 
locationid INT, 
postcode STRING, 
timestmp BIGINT 


) 
CLUSTERED BY (id) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'- 'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.locationgeospaceisatellite; 


INSERT INTO TABLE processdb.locationgeospaceisatellite 
SELECT 

ROW NUMBER() OVER (ORDER BY locationid), 

locationid, 

postcode, 

unix timestamp() 
FROM 

processdb.locationgeospacesatellite0001 
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ORDER BY locationid; 


CREATE TABLE IF NOT EXISTS processdb. locationgeospace2satellite 人 


id INT, 

locationid INT, 

latitude DECIMAL(18, 9), 
longitude DECIMAL(18, 9), 
timestmp BIGINT 


) 

CLUSTERED BY (id, locationid) INTO 1 BUCKETS 

STORED AS orc 

TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.locationgeospace2satellite; 


INSERT INTO TABLE processdb.locationgeospace2satellite 
SELECT l 

ROW NUMBER() OVER (ORDER BY locationid), 

locationid, 

latitude, 

longitude, 

unix timestamp() 
FROM 

processdb.locationgeospacesatellite0001; 


CREATE TABLE IF NOT EXISTS processdb.locationgeospace3satellite ( 


id INT, 
locationid INT, 
easting INT, 
northing INT, 
timestmp BIGINT 


) 

CLUSTERED BY (id, locationid) INTO 1 BUCKETS 

STORED AS orc 

TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.locationgeospace3satellite; 


INSERT INTO TABLE processdb.locationgeospace3satellite 
SELECT 

ROW NUMBER() OVER (ORDER BY locationid), 

locationid, 

easting, 

northing, 

unix timestamp() 
FROM 

processdb.locationgeospacesatelliteO0001; 


CREATE TABLE IF NOT EXISTS processdb.locationgeospace4satellite 人 


id INT, 

locationid INT, 

postcode STRING, 
latitude DECIMAL(18, 9), 


longitude DECIMAL(18, 9), 
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easting INT, 

northing INT, 

gridref STRING, 
district STRING, 
ward STRING, 
districtcode STRING, 
wardcode STRING, 
country STRING, 


countycode STRING, 
constituency STRING, 
typearea STRING, 
timestmp BIGINT 


) 

CLUSTERED BY (id, locationid) INTO 1 BUCKETS 

STORED AS orc 

TBLPROPERTIES( ‘transactional’ = ‘true’, ‘orc.compress'='ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb. locationgeospace4satellite; 


INSERT INTO TABLE processdb. locationgeospace4satellite 
SELECT 
ROW NUMBER() OVER (ORDER BY locationid), 
locationid, 
postcode, 
latitude, 
longitude, 
easting, 
northing, 
gridref, 
district, 
ward, 
districtcode, 
wardcode, 
country, 
countycode, 
constituency, 
typearea, 
unix timestamp() 
FROM 
processdb.locationgeospacesatellite0001; 


DROP TABLE processdb.locationgeospacesatellite0001; 
DROP TABLE processdb.locationhub001; 


我 们 快 完工 了 了 …… 还 需要 一 些 其 他 的 结构 。 
参见 示例 脚本 Process004.txt 中 的 Hive 代码 ， 它 保存 了 所 有 与 事件 相关 的 数据 结构 。 


USE processdb; 


CREATE TABLE IF NOT EXISTS processdb.eventhub ( 
id int, 
eventtype string, 
eventname string, 
eventid int 
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) 
CLUSTERED BY (id) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE processdb.eventhub; 


CREATE TABLE IF NOT EXISTS processdb.eventhuboO1 ( 
eventtype string, 
eventname string, 
eventid int 
) 
CLUSTERED BY (eventtype, eventname,eventid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.eventhub001; 


INSERT INTO TABLE processdb.eventhub001 
SELECT DISTINCT 

‘intangible’, 

"banktransaction', 

id as eventid 
FROM 

assessdb.account ; 


TRUNCATE TABLE processdb.eventhub; 


INSERT INTO TABLE processdb.eventhub 
SELECT DISTINCT 
ROW NUMBER() OVER (ORDER BY eventtype,eventname,eventid), 
eventtype, 
eventname, 
eventid 
FROM 
processdb.eventhub001; 


CREATE TABLE IF NOT EXISTS processdb.eventbanktransactionsatelliteooo1 ( 


accountid int, 
transactionid int, 
balance DECIMAL(18, 9) 


) 

CLUSTERED BY (accountid,transactionid) INTO 1 BUCKETS 

STORED AS orc 

TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.eventbanktransactionsatelliteoo1; 


INSERT INTO TABLE processdb.eventbanktransactionsatelliteo001 
SELECT 

accountid, 

id as transactionid, 

balance 
FROM 
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assessdb.account; 
CREATE TABLE IF NOT EXISTS processdb.eventbanktransactionsatellite ( 


id int, 

accountid int, 
transactionid int, 

balance DECIMAL(18, 9), 
timestmp bigint 


) 
CLUSTERED BY (id) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.eventbanktransactionsatellite; 


INSERT INTO TABLE processdb.eventbanktransactionsatellite 
SELECT 
ROW NUMBER() OVER (ORDER BY accountid,transactionid) ; 
accountid, 
transactionid, 
balance, 
unix timestamp() 
FROM 
processdb.eventbanktransactionsatellite0001; 


DROP TABLE processdb.eventbanktransactionsatellite0001; 
DROP TABLE processdb.eventhub001; 
SHOW TABLES; 


参见 示例 脚本 Process005.txt 中 的 Hive 代码 ， 其 中 保存 了 所 有 与 时 间 相关 的 数据 结构 。 


USE processdb; 


CREATE TABLE IF NOT EXISTS processdb.timehub ( 
id INT, 
timeid INT 
) 
CLUSTERED BY (id) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.timehub; 
CREATE TABLE IF NOT EXISTS processdb.timehuboo1 ( 
timeid INT 
) 
CLUSTERED BY (timeid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.timehub001; 


INSERT INTO TABLE processdb.timehub001 
SELECT DISTINCT 

id as timeid 
FROM 
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assessdb.dates 
WHERE yearnumber = 2015; 


INSERT INTO TABLE processdb.timehubo01 
SELECT DISTINCT 
id as timeid 
FROM 
assessdb.dates 
WHERE yearnumber = 2016; 


TRUNCATE TABLE processdb.timehub; 


INSERT INTO TABLE processdb.timehub 
SELECT DISTINCT 
ROW NUMBER() OVER (ORDER BY timeid), 
timeid 
FROM 
processdb.timehub001; 


CREATE TABLE IF NOT EXISTS processdb.timesatelliteooo1 ( 
timeid INT, 
datetimes string 
) 
CLUSTERED BY (timeid) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = ‘true’, 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.timesatelliteO0001; 


INSERT INTO TABLE processdb.timesatelliteoo01 
SELECT 
id as timeid, 
datetimes 
FROM 
assessdb.dates 
WHERE yearnumber - 2015; 


INSERT INTO TABLE processdb.timesatelliteO001 
SELECT 
id as timeid, 
datetimes 
FROM 
assessdb.dates 
WHERE yearnumber - 2016; 


CREATE TABLE IF NOT EXISTS processdb.timeisatellite ( 


id INT, 
timeid INT, 
datetimes STRING, 
timestmp ` BIGINT 


) 
CLUSTERED BY (id) INTO 1 BUCKETS 


STORED AS orc 
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TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'="ZLIB’,'orc.create.index'='true' ) ; 
TRUNCATE TABLE processdb.timeisatellite; 


INSERT INTO TABLE processdb.timeisatellite 
SELECT 
ROW NUMBER() OVER (ORDER BY timeid), 
timeid, 
datetimes, 
unix timestamp() 
FROM 
processdb.timesatelliteo001 
ORDER BY timeid; 


DROP TABLE processdb.timesatelliteO001; 
DROP TABLE processdb.timehub001 ; 


现在 你 已 经 创建 了 所 有 中 心 表 和 卫星 表 。 你 将 添加 所 有 的 链接 表 。 这 个 环节 的 工作 量 很 大 ， 
但 是 回报 近 在 眼前 。 你 很 快 就 会 有 一 个 完全 可 以 工作 的 Data Vault。 

参见 示例 脚本 Process006.txt 中 的 Hive 代码 。 它 保存 了 人 员 、 对 象 、 位 置 、 事 件 和 时 间 等 数 
据 结构 之 间 的 所 有 链接 表 。 


USE processdb; 


CREATE TABLE IF NOT EXISTS processdb.person person link( 
id INT, 
personid1 INT, 
personid2 INT 
) 
CLUSTERED BY (id, personid1, personid2) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES( ‘transactional’ = 'true', 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.person person link; 


CREATE TABLE IF NOT EXISTS processdb.person person linkoo2( 
personidi INT, 
personid2 INT 
) 
CLUSTERED BY (personidi, personid2) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.person person link002; 


CREATE TABLE IF NOT EXISTS processdb.personlinkooi( 
personid INT 
) 
CLUSTERED BY (personid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 
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INSERT INTO TABLE processdb.personlinkooi 
SELECT 
personhub.id as personid 
FROM 
processdb.personhub 
LIMIT 10; 


CREATE TABLE IF NOT EXISTS processdb.object object link( 
id INT, 
objectidi INT, 
objectid2 INT 
) 
CLUSTERED BY (id, objectidi, objectid2) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true', 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


CREATE TABLE IF NOT EXISTS processdb.object object linkoo2( 
objectidi INT, 
objectid2 INT 
) 
CLUSTERED BY (objectid1, objectid2) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


CREATE TABLE IF NOT EXISTS processdb.objectlinkooi( 
objectid INT 
) 
CLUSTERED BY (objectid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES( ‘transactional’ = 'true', 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


TRUNCATE TABLE processdb.objectlinkooi; 


INSERT INTO TABLE processdb.objectlinkooi 
SELECT 
objecthub.id as objectid 
FROM 
processdb.objecthub 
LIMIT 10; 


CREATE TABLE IF NOT EXISTS processdb.location location link( 
id INT, 
locationid1 INT, 
locationid2 INT 
) 
CLUSTERED BY (id, locationid1, locationid2) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB','orc.create.index'-'true'); 


TRUNCATE TABLE processdb.location location link; 


CREATE TABLE IF NOT EXISTS processdb.location location linkoo2( 
locationid1 INT, 
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locationid2 INT 


CLUSTERED BY (locationid1, locationid2) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


CREATE TABLE IF NOT EXISTS processdb.locationlinkooi( 
locationid INT 
) 
CLUSTERED BY (locationid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES( ‘transactional’ = ‘true’, 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb. locationlinkoo1 
SELECT 
locationhub.id as locationid 
FROM 
processdb. locationhub 
LIMIT 10; 


CREATE TABLE IF NOT EXISTS processdb.event_event_link( 
id INT, 
eventid1 INT, 
eventid2 INT 
) 
CLUSTERED BY (id, eventidi, eventid2) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES( ‘transactional’ = ‘true’, 'orc.compress'='ZLIB','orc.create.index'='true' ); 


CREATE TABLE IF NOT EXISTS processdb.event event linkoo2( 
eventid1 INT, 
eventid2 INT 
) 
CLUSTERED BY (eventid1, eventid2) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


CREATE TABLE IF NOT EXISTS processdb.eventlinkooi( 
eventid INT 
) 
CLUSTERED BY (eventid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 
INSERT INTO TABLE processdb.eventlinkooi 
SELECT 
eventhub.id as eventid 
FROM 
processdb.eventhub 
LIMIT 10; 


CREATE TABLE IF NOT EXISTS processdb.time time link( 
id INT, 
timeidi INT, 
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timeid2 INT 
) 
CLUSTERED BY (id, timeidi, timeid2) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


CREATE TABLE IF NOT EXISTS processdb.time time linkoo2( 
timeid1 INT, 
timeid2 INT 
) 
CLUSTERED BY (timeid1, timeid2) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


CREATE TABLE IF NOT EXISTS processdb.timelinkooi( 
timeid INT 
) 
CLUSTERED BY (timeid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.timelinkoo1 
SELECT 
timehub.id as timeid 
FROM 
processdb.timehub 
LIMIT 10; 


CREATE TABLE IF NOT EXISTS processdb.person object linkoo2( 
personid INT, 
objectid INT 
) 
CLUSTERED BY (personid, objectid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true",'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.person object linkoo2 
SELECT DISTINCT 
personlinkOO1.id as personid, 
objectlinko01.id as objectid 
FROM 
processdb.personlinkoo1 
GROSS JOIN 
processdb.objectlinkoo1 
LIMIT 20; 


INSERT INTO TABLE processdb.person object linkoo2 
SELECT personhub.id, objecthub.objectid 

FROM assessdb.account 

JOIN 

processdb.personhub 

ON account.pid - personhub.id 

JOIN 
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processdb.objecthub 
ON account.accountid = objecthub.objectid 
LIMIT 100; 


CREATE TABLE IF NOT EXISTS processdb.person object link( 
id INT, 
personid INT, 
objectid INT 
) 
CLUSTERED BY (id, personid, objectid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.person object link 
SELECT DISTINCT 
ROW NUMBER() OVER (ORDER BY personid, objectid), 
personid, 
objectid 
FROM 
processdb.person object linko02; 


CREATE TABLE IF NOT EXISTS processdb.person location linkoo2( 
personid INT, 
locationid INT 
) 
CLUSTERED BY (personid, locationid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.person location link002 
SELECT DISTINCT 
personlinkOO1.id as personid, 
locationlink001.id as locationid 
FROM 
processdb.personlink001 
GROSS JOIN 
processdb. locationlinkoo1 
LIMIT 20; 


CREATE TABLE IF NOT EXISTS processdb.person location link( 
id INT, 
personid INT, 
locationid INT 
) 
CLUSTERED BY (id, personid, locationid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.person location link 
SELECT DISTINCT 
ROW NUMBER() OVER (ORDER BY personid, locationid), 
personid, 
locationid 
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FROM 
processdb.person location linko02; 


CREATE TABLE IF NOT EXISTS processdb.person event linkoo2( 
personid INT, 
eventid INT 
) 
CLUSTERED BY (personid, eventid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true', 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.person event linko02 
SELECT DISTINCT 
personlink001.id as personid, 
eventlinkoO1.id as eventid 
FROM 
processdb.personlink001 
GROSS JOIN 
processdb.eventlinkooi 
LIMIT 20; 


CREATE TABLE IF NOT EXISTS processdb.person event link( 
id INT, 
personid INT, 
eventid INT 
) 
CLUSTERED BY (id, personid, eventid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'='ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.person event link 
SELECT DISTINCT 
ROW NUMBER() OVER (ORDER BY personid, eventid), 
personid, 
eventid 
FROM 
processdb.person event linko002; 


CREATE TABLE IF NOT EXISTS processdb.person time linkoo2( 
personid INT, 
timeid INT 
) 
CLUSTERED BY (personid, timeid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true', 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.person time link002 
SELECT DISTINCT 
personlinkOO1.id as personid, 
timelinkoo1.id as timeid 
FROM 
processdb.personlinkooi 
GROSS JOIN 


180 第 8 章 Hive 分 析 


' processdb.timelinkooi 
LIMIT 20; 


CREATE TABLE IF NOT EXISTS processdb.person time link( 
id INT, 
personid INT, 
timeid INT 
) 
CLUSTERED BY (id, personid, timeid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = ‘true’, 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.person time link 
SELECT DISTINCT 
ROW NUMBER() OVER (ORDER BY personid, timeid), 
personid, 
timeid 
FROM 
processdb.person time linko002; 


CREATE TABLE IF NOT EXISTS processdb.object location linkoo2( 
objectid INT, 
locationid INT 
) 
CLUSTERED BY (objectid, locationid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.object location linkoo2 
SELECT DISTINCT 
objectlinkoO1.id as objectid, 
locationlinkoO1.id as locationid 
FROM 
processdb.objectlinkooi 
GROSS JOIN 
processdb.locationlinkoo1 
LIMIT 20; 


CREATE TABLE IF NOT EXISTS processdb.object location link( 
id INT, 
objectid INT, 
locationid INT 
) 
CLUSTERED BY (id, objectid, locationid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.object location link 
SELECT DISTINCT 
ROW NUMBER() OVER (ORDER BY objectid, locationid), 
objectid, 
locationid 
FROM 
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processdb.object location linko02; 


CREATE TABLE IF NOT EXISTS processdb.object event linkoo2( 
objectid INT, 
eventid INT 
) 
CLUSTERED BY (objectid, eventid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.object event linkoo2 
SELECT DISTINCT 
objectlinkoO1.id as objectid, 
eventlinkoO1.id as eventid 
FROM 
processdb.objectlinkoo1 
GROSS JOIN 
processdb.eventlinkooi 
LIMIT 20; 


CREATE TABLE IF NOT EXISTS processdb.object event link( 
id INT, 
objectid INT, 
eventid INT 
) 
CLUSTERED BY (id, objectid, eventid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.object event link 
SELECT DISTINCT 
ROW NUMBER() OVER (ORDER BY objectid, eventid), 
objectid, 
eventid 
FROM 
processdb.object event link002; 


CREATE TABLE IF NOT EXISTS processdb.object time linkoo2( 
objectid INT, 
timeid INT 
) 
CLUSTERED BY (objectid, timeid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true', 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.object time linkoo2 
SELECT DISTINCT 
objectlinkooi.id as objectid, 
timelinkoO1.id as timeid 
FROM | 
processdb.objectlinkoo1 
GROSS JOIN 
processdb.timelinkoo1 
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' LIMIT 20; 


CREATE TABLE IF NOT EXISTS processdb.object time link( 
id INT, 
objectid INT, 
timeid INT 
) 
CLUSTERED BY (id, objectid, timeid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'- 'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.object time link 
SELECT DISTINCT 
ROW NUMBER() OVER (ORDER BY objectid, timeid), 
objectid, 
timeid 
FROM 
processdb.object time linko002; 


CREATE TABLE IF NOT EXISTS processdb.location event linkoo2( 
locationid INT, 
eventid INT 
) 
CLUSTERED BY (locationid, eventid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.location event link002 
SELECT DISTINCT 
locationlinkoO1.id as locationid, 
eventlinkoO1.id as eventid 
FROM 
processdb.locationlinkoo1 
GROSS JOIN 
processdb.eventlinkoo1 
LIMIT 20; 


CREATE TABLE IF NOT EXISTS processdb.location event link( 
id INT, 
locationid INT, 
eventid INT 
) 
CLUSTERED BY (id, locationid, eventid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.location event link 
SELECT DISTINCT 
ROW NUMBER() OVER (ORDER BY locationid, eventid), 
locationid, 
eventid 
FROM 
processdb.location event link002; 
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CREATE TABLE IF NOT EXISTS processdb.location time linkoo2( 
locationid INT, 
timeid INT 
) 
CLUSTERED BY (locationid, timeid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.location time linkoo2 
SELECT DISTINCT 
locationlinkOO1.id as locationid, 
timelinkoO1.id as timeid 
FROM 
processdb. locationlinkoo1 
GROSS JOIN 
processdb.timelinkooi 
LIMIT 20; 


CREATE TABLE IF NOT EXISTS processdb.location time link( 
id INT, 
locationid INT, 
timeid INT 
) 
CLUSTERED BY (id, locationid, timeid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true', 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.location time link 
SELECT DISTINCT 
ROW NUMBER() OVER (ORDER BY locationid, timeid), 
locationid, 
timeid 
FROM 
processdb.location time link002; 


CREATE TABLE IF NOT EXISTS processdb.event time linkoo2( 
eventid INT, 
timeid INT 
) 
CLUSTERED BY (eventid, timeid) INTO 1 BUCKETS 
STORED As orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.event time linkoo2 
SELECT DISTINCT 
eventlinkOoO1.id as eventid, 
timelinkoO1.id as timeid 
FROM 
processdb.eventlinkoo1 
GROSS JOIN 
processdb.timelinkooi 
LIMIT 20; 
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‘CREATE TABLE IF NOT EXISTS processdb.event time link( 
id INT, 
eventid INT, 
timeid INT 

) 

CLUSTERED BY (id, eventid, timeid) INTO 1 BUCKETS 

STORED As orc 

TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE processdb.event time link 
SELECT DISTINCT 
ROW NUMBER() OVER (ORDER BY eventid, timeid), 
eventid, 
timeid 
FROM 
processdb.event time linko002; 


现在 你 有 了 一 个 Data Vault, Hii: processdb 数据 库 就 可 以 完成 工作 了 。 
参见 示例 脚本 Process007.txt 中 的 Hive 代码 。 这 段 代 码 清 空 了 过 程 数 据 库 。 


USE processdb; 


DROP TABLE processdb.person event_link002; 
DROP TABLE processdb.person location link002; 
DROP TABLE processdb.person object linko002; 
DROP TABLE processdb.person person linko02; 
DROP TABLE processdb.person time link002; 
DROP TABLE processdb.personlink001; 


DROP TABLE processdb.object event linko002; 
DROP TABLE processdb.object location linko002; 
DROP TABLE processdb.object object linkoo2; 
DROP TABLE processdb.object time linko02; 
DROP TABLE processdb.objectlinkoO1; 


DROP TABLE processdb.location event link002; 
DROP TABLE processdb.location location linko02; 
DROP TABLE processdb.location time linko02; 
DROP TABLE processdb.locationlinko01; 


DROP TABLE processdb.event event link002; 
DROP TABLE processdb.event time link002; 
DROP TABLE processdb.eventlink001; 


DROP TABLE processdb.time time link002; 
DROP TABLE processdb.timelink0O1; 


现在 , 你 已 经 针对 Hive 解决 方案 完成 了 脚本 范围 内 的 各 项 内 容 , 创建 了 processdb 的 所 有 数 
据 结构 。 

让 我 们 快速 检查 一 下 创建 了 哪些 表 。 执 行 下 述 命令 。 

SHOW TABLES; 


成 功 ! 你 已 经 完成 了 过 程 层 。 
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8.3.5 转换 数据 库 


转换 数据 库 保 存 了 一 个 ROLAP (关系 型 在 线 分 析 处 理 ) 模型 ， 该 模型 由 太阳 模型 所 描述 的 
维度 和 事实 的 物理 部 署 组 成 。 
你 将 创建 一 个 名 为 transformdb 的 数据 库 ， 它 保存 了 你 的 太阳 模型 所 推荐 的 转换 数据 结构 。 


CREATE DATABASE IF NOT EXISTS transformdb; 
USE transformdb; 


你 创建 的 第 一 个 维度 是 dimperson, 1&4: 
O 维度 键 personkey 
O 两 个 维度 属性 firstname 和 lastname 


CREATE TABLE IF NOT EXISTS transformdb.dimperson ( 
personkey BIGINT, 
firstname STRING, 
lastname STRING 

) 


CLUSTERED BY (firstname, lastname,personkey) INTO 1 BUCKETS 
STORED AS orc 


TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


ERIEK ee 4K EI] dimperson 维度 中 。 


INSERT INTO TABLE transformdb.dimperson 
VALUES 

(999997, ‘Ruff’, 'Hond'), 

(999998, 'Robbie', 'Rot'), 

(999999, 'Helen', 'Kat'); 


注意 ”我们 直接 插入 数据 ， 因 为 它 通 过 这 一 层 加 速 了 处 理 。 


你 创建 的 第 2 个 维度 是 dimaccount， 它 包括 : 
O 维度 键 accountkey 
口 维度 属性 accountnumber 


CREATE TABLE IF NOT EXISTS transformdb.dimaccount ( 
accountkey BIGINT, 
accountnumber INT 
) 
CLUSTERED BY (accountnumber,accountkey) INTO 1 BUCKETS 
STORED AS orc 


TBLPROPERTIES('transactional' = 'true','orc.compress'- 'ZLIB', 'orc.create.index'-'true'); 


让 我 们 将 一 些 样 本 数据 装载 到 dimaccount 维度 中 。 


INSERT INTO TABLE transformdb.dimaccount 
VALUES 

(88888887 , 208887) , 

(88888888, 208888) , 

(88888889 , 208889) ; 
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你 创建 的 第 一 个 事实 是 fctpersonaccount ， 它 包含 以 下 内 容 : 
O 事实 键 personaccountkey 
口 来 自 维 度 dimperson 的 事实 键 personkey 
O A AEE dimaccount 的 事实 键 accountkey 
Q 度量 balance 


CREATE TABLE IF NOT EXISTS transformdb.fctpersonaccount ( 
personaccountkey BIGINT, 


personkey BIGINT, 
accountkey ~ BIGINT, 
balance DECIMAL(18, 9) 


) 
CLUSTERED BY (personkey,accountkey) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'- 'ZLIB', 'orc.create.index'-'true'); 


让 我 们 将 一 些 样本 数据 装载 到 Fctpersonaccount 事实 表 中 。 
你 创建 的 下 一 个 临时 事实 表 是 fctpersonaccount001。 
CREATE TABLE IF NOT EXISTS transformdb.fctpersonaccountoO1 ( 


personkey BIGINT, 
accountkey BIGINT, 
balance DECIMAL(18, 9) 


) 
CLUSTERED BY (personkey,accountkey) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index' -'true'); 


INSERT INTO TABLE transformdb.fctpersonaccountoO1 
VALUES 

(999997, 88888887, 10.60), 
(999997, 88888887, 400.70), 
(999997, 88888887, -210.90), 
(999998, 88888888, 1000.00), 
(999998, 88888888, 1990.60), 
(999998, 88888888 ,900.70), 
(999999, 88888889, 160.60), 
(999999, 88888889, 180.70), 
(999999, 88888889, 100.60), 
(999999, 88888889,120.90), 
(999999, 88888889, 180.69), 
(999999, 88888889, 130.30); 


你 创建 的 下 一 个 临时 事实 表 是 fctpersonaccountoo2., 


CREATE TABLE IF NOT EXISTS transformdb.fctpersonaccountoO2 ( 


personkey BIGINT, 
accountkey BIGINT, 
balance DECIMAL(18, 9) 


) 

CLUSTERED BY (personkey,accountkey) INTO 1 BUCKETS 

STORED AS orc 

TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 
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让 我 们 将 一 些 活动 数据 装载 到 事实 表 fctpersonaccount002 中 。 


INSERT INTO TABLE transformdb .fctpersonaccount002 
SELECT 

CAST(personkey AS BIGINT), 

CAST(accountkey AS BIGINT), 

CAST(SUM(balance) AS DECIMAL(18, 9)) 

FROM transformdb. fctpersonaccount00o1 

GROUP BY personkey, accountkey; 


让 我 们 使 用 维度 dimperson 和 dimaccount, ， 通 过 事实 表 fctpersonaccountoo2 将 一 些 活动 数 
据 装 载 到 事实 表 fctpersonaccount 中 。 


INSERT INTO TABLE transformdb.fctpersonaccount 
SELECT 

ROW NUMBER() OVER (ORDER BY personkey, accountkey), 
CAST(personkey AS BIGINT), 

CAST(accountkey AS BIGINT), 

CAST(balance AS DECIMAL(18, 9)) 

FROM transformdb.fctpersonaccount002; 


清空 transformdb. 


DROP TABLE transformdb.fctpersonaccount001; 
DROP TABLE transformdb.fctpersonaccount002; 


现在 你 拥有 了 转换 ROLAP 结构 的 基本 构建 块 。 让 我 们 根据 转换 需求 运用 你 已 经 掌握 的 Hive 
技能 ， 并 且 构 建 完 整 的 转换 数据 库 。 


注意 ”参见 示例 脚本 Transform001.txt 中 的 Hive 代码 。 它 创建 并 填充 了 维度 dimperson。 


DROP DATABASE transformdb CASCADE; 


CREATE DATABASE IF NOT EXISTS transformdb; 
USE transformdb; 


CREATE TABLE IF NOT EXISTS transformdb.dimperson ( 
personkey BIGINT, 
firstname STRING, 
lastname STRING 
) 
CLUSTERED BY (firstname, lastname,personkey) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', ‘orc.create.index'='true' ); 


CREATE TABLE IF NOT EXISTS transformdb.dimpersonoo1 ( 
firstname STRING, 
lastname STRING 
) 
CLUSTERED BY (firstname, lastname) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


188 $83. Hive 分 析 


, INSERT INTO TABLE transformdb.dimpersonoO1 
SELECT DISTINCT 
firstname, 
lastname 
FROM 
processdb.personhub; 


CREATE TABLE IF NOT EXISTS transformdb.dimpersonoo2 ( 
personkey BIGINT, 
firstname STRING, 
lastname STRING 
) 
CLUSTERED BY (firstname, lastname,personkey) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB','orc.create.index'-'true'); 


INSERT INTO TABLE transformdb.dimpersonoo2 
SELECT 
ROW NUMBER() OVER (ORDER BY firstname, lastname), 
firstname, 
lastname 
FROM 
transformdb.dimpersono01; 


INSERT INTO TABLE transformdb.dimperson 
SELECT 
personkey, 
firstname, 
lastname 
FROM 
trans formdb.dimpersono02 
ORDER BY firstname, lastname, personkey; 


INSERT INTO TABLE transformdb.dimperson 
VALUES 

(999997, 'Ruff' , 'Hond'), 

(999998, ‘Robbie’, 'Rot'), 

(999999, 'Helen', 'Kat'); 


DROP TABLE transformdb.dimpersonO01; 
DROP TABLE transformdb.dimpersono02; 


注意 ”参见 示例 脚本 Transform002.txt 中 的 Hive 代码 ， 它 创建 并 填充 了 维度 dimaccount. 


USE transformdb; 


CREATE TABLE IF NOT EXISTS transformdb.dimaccount ( 
accountkey BIGINT, 
accountnumber INT 
) 
CLUSTERED BY (accountnumber,accountkey) INTO 1 BUCKETS 
STORED AS orc 
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TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


CREATE TABLE IF NOT EXISTS transformdb.dimaccountoo1 ( 
accountnumber INT 
) 
CLUSTERED BY (accountnumber) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE transformdb.dimaccountoO1 
SELECT DISTINCT 
objectid 
FROM 
processdb.objecthub 
WHERE objecttype - 'intangible' 
AND objectname - 'bankaccount'; 


CREATE TABLE IF NOT EXISTS transformdb.dimaccountoO2 ( 
accountkey BIGINT, 
accountnumber INT 
) 
CLUSTERED BY (accountnumber,accountkey) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB','orc.create.index'-'true'); 


INSERT INTO TABLE transformdb.dimaccount00o2 
SELECT DISTINCT 
ROW NUMBER() OVER (ORDER BY accountnumber DESC), 
accountnumber 
FROM 
transformdb.dimaccount001; 


INSERT INTO TABLE transformdb.dimaccount 
SELECT DISTINCT 
accountkey, 
accountnumber 
FROM 
transformdb.dimaccount002 
ORDER BY accountnumber; 


INSERT INTO TABLE transformdb.dimaccount 
VALUES 

(88888887, 208887), 

(88888888 , 208888) , 

(88888889 , 208889) ; 


DROP TABLE transformdb.dimaccounto0o1; 
DROP TABLE transformdb.dimaccount0o02; 


注意 ”参见 示例 脚本 Transform003.txt 中 的 Hive 代码 ， 它 创建 并 填充 了 fctpersonaccount 事实 。 
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USE transformdb; 


CREATE TABLE IF NOT EXISTS transformdb.fctpersonaccount ( 
personaccountkey BIGINT, 


personkey BIGINT, 
accountkey BIGINT, 
balance DECIMAL(18, 9) 


) 
CLUSTERED BY (personkey,accountkey) INTO 1 BUCKETS 


STORED AS orc 
TBLPROPERTIES('transactional' = 'true', 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


CREATE TABLE IF NOT EXISTS transformdb.fctpersonaccountoO1 ( 


personkey BIGINT, 
accountkey BIGINT, 
balance DECIMAL(18, 9) 


) 

CLUSTERED BY (personkey,accountkey) INTO 1 BUCKETS 

STORED AS orc 

TBLPROPERTIES('transactional' = ‘true’, 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE transformdb.fctpersonaccountoO1 
VALUES 
(999997,88888887,10.60), 
(999997,88888887,400.70), 
(999997,88888887, -210.90), 
(999998,88888888,1000.00), 
(999998,88888888,1990.60), 
(999998,88888888,900.70), 
(999999,88888889,160.60), 
(999999,88888889,180.70), 
(999999,88888889, 100.60), 
(999999,88888889,120.90), 
(999999,88888889,180.69), 
(999999,88888889,130.30); 


CREATE TABLE IF NOT EXISTS transformdb.fctpersonaccountoO2 ( 


personkey BIGINT, 
accountkey BIGINT, 
balance DECIMAL(18, 9) 


) 

CLUSTERED BY (personkey,accountkey) INTO 1 BUCKETS 

STORED AS orc 

TBLPROPERTIES('transactional' = 'true', 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE transformdb.fctpersonaccount0O2 
SELECT 

CAST(personkey AS BIGINT), 

CAST(accountkey AS BIGINT), 

CAST(SUM(balance) AS DECIMAL(18, 9)) 

FROM transformdb.fctpersonaccounto0O1 

GROUP BY personkey, accountkey; 


INSERT INTO TABLE transformdb.fctpersonaccount 
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SELECT 

ROW NUMBER() OVER (ORDER BY personkey, accountkey), 
CAST(personkey AS BIGINT), 

CAST(accountkey AS BIGINT), 

CAST(balance AS DECIMAL(18, 9)) 

FROM transformdb.fctpersonaccounto002; 


DROP TABLE transformdb.fctpersonaccount001; 
DROP TABLE transformdb.fctpersonaccounto002; 


注意 ”参见 示例 脚本 Transform004.txt 中 的 Hive 代码 。 它 创建 并 填充 了 dimaddress , dimdatetime 
和 fctpersonaddressdate。 l 


USE transformdb; 
DROP TABLE transformdb.dimaddress; 


CREATE TABLE IF NOT EXISTS transformdb.dimaddress( 
addresskey BIGINT, 
postcode STRING 
) 
CLUSTERED BY (addresskey) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'='ZLIB','orc.create.index'='true'); 


INSERT INTO TABLE transformdb.dimaddress 
VALUES 

(1,'KA12 8RR'), 

(2, FRS 2B"), 

(3,'EH1 2NG'); 


DROP TABLE transformdb.dimdatetime; 


CREATE TABLE IF NOT EXISTS transformdb.dimdatetime( 
datetimekey BIGINT, 
datetimestr STRING 
) 
CLUSTERED BY (datetimekey) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = ‘true’, 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE transformdb.dimdatetime 
VALUES 

(1,'2015/08/23 16h00'), 

(2,'2015/10/03 17h00'), 

(3,'2015/11/12 06h00'); 


CREATE TABLE IF NOT EXISTS transformdb.fctpersonaddressdate( 
personaddressdatekey BIGINT, 
personkey BIGINT, 
addresskey BIGINT, 
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datetimekey BIGINT 


CLUSTERED BY (datetimekey) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE transformdb.fctpersonaddressdate 
VALUES 

(1,999997,1,1), 

(2,999998,2,2), 

(3,999999, 3,3); 


如 果 完 成 了 所 有 脚本 ， 请 检查 你 的 所 有 维度 和 事实 ， 然 后 执行 以 下 命令 。 
SHOW TABLES; 


你 刚刚 已 经 完成 了 转换 层 。 


8.3.6 ”你 掌握 了 什么 


你 成 功 地 创建 了 一 个 数据 仓库 ， 其 中 包括 : 

O 维度 

O 事实 

o 聚合 

你 取得 了 很 大 的 进步 。 你 已 经 掌握 了 构建 数据 仓库 的 过 程 。 艰 将 的 工作 已 经 完成 了 。 


注意 ”从 数据 源 构建 数据 仓库 通常 需要 占用 项 目 中 70%~ 80% 的 编程 工作 量 。 
下 一 个 阶段 是 从 功能 完备 的 数据 仓库 创建 数据 集 市 。 


8.3.7 组织 数 据 库 


组 织 数 据 库 保存 了 一 系列 小 型 ROLAP 模型 ， 正 如 太阳 模型 所 描述 的 那样 ， 这 些 模型 包含 了 
维度 和 事实 模型 的 细 分 ， 但 是 要 经 过 筛选 来 创建 数据 集 市 。 

你 将 创建 一 个 名 为 organisedb 的 数据 库 来 保存 数据 集 市 的 结构 。 

CREATE DATABASE IF NOT EXISTS organisedb; 

请 记 住 在 Hive 中 还 有 这 样 的 命令 ， 在 创建 表 时 可 以 将 男 一 个 表 作 为 参考 ， 

这 对 于 数据 集 市 来 说 非常 有 效 ， 因 为 它们 包含 相同 的 数据 结构 ， 并 且 只 有 筛选 自 原始 表 的 
数据 。 


CREATE TABLE IF NOT EXISTS organisedb.dimperson LIKE transformdb.dimperson; 
CREATE TABLE IF NOT EXISTS organisedb.dimaccount LIKE transformdb.dimaccount; 


CREATE TABLE IF NOT EXISTS organisedb.fctpersonaccount LIKE transformdb.fctpersonaccount; 
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CREATE TABLE IF NOT EXISTS organisedb.dimaddress( 
addresskey BIGINT, 
postcode STRING 
) 
CLUSTERED BY (addresskey) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true', 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


CREATE TABLE IF NOT EXISTS organisedb. fctpersonaddressdate( 


personaddressdatekey BIGINT, 
personkey BIGINT, 
addresskey BIGINT, 
datetimekey BIGINT 


) 


CLUSTERED BY (datetimekey) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true', 'orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


注意 ”参见 示例 脚本 Organise001.txt 中 的 Hive 代码 。 它 创建 并 填充 了 完整 的 组 织 数据 库 。 


DROP DATABASE organisedb CASCADE; 
CREATE DATABASE IF NOT EXISTS organisedb; 
USE organisedb; 


CREATE TABLE IF NOT EXISTS organisedb.dimperson ( 
personkey BIGINT, 
firstname STRING, 
lastname STRING 
) 
CLUSTERED BY (firstname, lastname,personkey) INTO 1 BUCKETS 
STORED AS orc À 
TBLPROPERTIES('transactional' = 'true','orc.compress'='ZLIB','orc.create.index'='true'); 


CREATE TABLE IF NOT EXISTS organisedb.dimperson LIKE transformdb.dimperson; 


INSERT INTO TABLE organisedb.dimperson 
SELECT 
personkey, 
firstname, 
lastname 
FROM 
transformdb.dimperson 
ORDER BY firstname, lastname, personkey; 


CREATE TABLE IF NOT EXISTS organisedb.dimaccount ( 
accountkey _ BIGINT, 
accountnumber INT 


) 
CLUSTERED BY (accountnumber,accountkey) INTO 1 BUCKETS 
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STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'- true'); 


CREATE TABLE IF NOT EXISTS organisedb.dimaccount LIKE transformdb.dimaccount; 


INSERT INTO TABLE organisedb.dimaccount 
SELECT DISTINCT 
accountkey, 
accountnumber 
FROM 
transformdb.dimaccount 
ORDER BY accountnumber; 


CREATE TABLE IF NOT EXISTS organisedb.fctpersonaccount ( 
personaccountkey BIGINT, 


personkey BIGINT, 
accountkey BIGINT, 
balance DECIMAL(18, 9) 


CLUSTERED BY (personkey,accountkey) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


CREATE TABLE IF NOT EXISTS organisedb.fctpersonaccount LIKE transformdb.fctpersonaccount; 


现在 我 们 创建 数据 集 市 。 我 们 想 只 为 特定 账户 持 有 人 选择 记录 。Hive 代码 如 下 。 


INSERT INTO TABLE organisedb.fctpersonaccount 
SELECT DISTINCT 
personaccountkey, 
personkey, 
accountkey, 
balance 
FROM 
transformdb. fctpersonaccount 
WHERE 
personaccountkey = 1 
ORDER BY personaccountkey, personkey, accountkey ; 


注意 WHERE 语句 强制 将 数据 仓库 的 子 集 转换 成 数据 集 市 。 


如 果 你 执行 以 下 Hive 代码 ， 应 该 只 返回 一 个 记录 。 


SELECT * FROM organisedb.fctpersonaccount; 


你 刚刚 掌握 了 组 织 数 据 集 市 的 过 程 。 
让 我 们 再 针对 地 址 创建 一 个 数据 集 市 。 这 一 次 , 我 们 要 按照 列 分 割 , 形成 一 个 新 的 数据 集 市 。 


CREATE TABLE IF NOT EXISTS organisedb.dimaddress( 
addresskey BIGINT, 
postcode STRING 


) 
CLUSTERED BY (addresskey) INTO 1 BUCKETS 


8.3 掌握 数据 仓库 管理 195 


STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE organisedb.dimaddress 
SELECT DISTINCT 
addresskey, 
postcode 
FROM 
transformdb.dimaddress 
ORDER BY addresskey; 


执行 下 述 Hive 代码 。 

SELECT * FROM organisedb.dimaddress; 

你 刚刚 通过 对 特定 列 进行 子 选择 成 功 创建 了 一 个 数据 集 市 ， 这 些 列 对 该 数据 集 市 很 重要 。 
办 此 我 们 尝试 合并 这 两 项 要 求 。 


CREATE TABLE IF NOT EXISTS organisedb. fctpersonaddressdate( 


personaddressdatekey BIGINT, 
personkey BIGINT, 
addresskey BIGINT, 
datetimekey BIGINT 


) 
CLUSTERED BY (datetimekey) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'='ZLIB', 'orc.create.index's'true'); 
INSERT INTO TABLE organisedb. fctpersonaddressdate 
SELECT 
personaddressdatekey, 
personkey, 
addresskey, 
datetimekey 
FROM 
transformdb. fctpersonaddressdate 
WHERE personaddressdatekey = 1 
ORDER BY 
personaddressdatekey, 
personkey, 
addresskey, 
datetimekey; 


如 采 完 成 了 脚本 ， 请 检查 你 的 数据 集 市 的 所 有 维度 和 事实 ， 并 执行 以 下 命令 。 


SHOW TABLES; 


AY 你 已 经 成 功 地 创建 了 一 个 数据 集 市 ， 准 备 好 接受 查询 报表 吧 。 


vieta ihnen 


提示 “将 数据 仓库 细 分 后 ， 可 以 将 仅 供 某 一 分 支 使 用 的 数据 迁移 到 相应 的 分 支 服务 器 上 。 这 样 
RAL AT Ae, 还 提高 了 该 分 支 的 查询 速度 。 
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不 要 在 分 文 服务 器 上 分 割 数 据 集 市 。 相 反 , EASE SRA RAR S. 然后 只 将 组 织 层 的 最 
终结 果 连 同 报表 层 传送 到 分 支 。 如果 可 以 为 中 心 站 点 创建 一 个 单独 的 分 支 服务 右 , 那么 就 可 以 在 
不 影响 中 心 分 文 的 情况 下 处 理 新 数据 。 


8.3.8 报表 数据 库 


报表 数据 库 用 于 对 业务 太阳 模型 的 结果 进行 分 组 ,创建 一 系列 针对 数据 库 的 查询 ,以 确保 报 
表 在 整个 业务 过 程 中 保持 一 致 。 还 要 为 业务 实体 创建 数据 集 , 例如 早 间 报 表 的 数据 集 应 该 全 天 固 
Eo 通常, 各 种 报表 创建 的 时 间 间 隅 有 所 不 同 , 例如 每 小 时 、 每 天 、 每 周 、 每 月 、 每 季度 和 每 年 。 


提示 “如 果 你 需要 创建 国际 性 报表 ， 也 就 是 于 当地 时 间 8 时 制作 每 日 报表 ， 在 固定 时 间 进 行 集中 
式 处 理 ,并且 在 特定 分 支 的 组 织 层 增加 时 区 切换 。 这 样 ， 你 的 报表 层 总 是 设置 为 本 地 时 间 。 
让 我 们 开始 吧 ! 
注意 ”参见 示例 脚本 Report001.txt 中 的 Hive 代码 。 它 创建 并 且 填 充 了 报表 数据 库 。 


DROP DATABASE reportdb CASCADE ; 


CREATE DATABASE IF NOT EXISTS reportdb; 
USE reportdb; 


CREATE TABLE IF NOT EXISTS reportdb.reporto01( 


firstname STRING, 
lastname STRING, 
accountnumber INT, 

balance DECIMAL(18, 9) 


CLUSTERED BY (firstname, lastname) INTO 1 BUCKETS 
STORED AS orc 
TBLPROPERTIES( ‘transactional’ = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE reportdb.reporto01 
SELECT 
dimperson. firstname, dimperson. lastname, 
dimaccount.accountnumber, fctpersonaccount.balance 
FROM 
organisedb. fctpersonaccount 
JOIN 
organisedb.dimperson 
ON 
fctpersonaccount.personkey = dimperson.personkey 
JOIN 
organisedb.dimaccount 
ON 
fctpersonaccount.accountkey = dimaccount.accountkey; 
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CREATE TABLE IF NOT EXISTS reportdb.reportoo2( 
accountnumber INT, 
last balance DECIMAL(18, 9) 


) 

CLUSTERED BY (firstname, lastname) INTO 1 BUCKETS 

STORED AS orc 

TBLPROPERTIES('transactional' = 'true','orc.compress'-'ZLIB', 'orc.create.index'-'true'); 


INSERT INTO TABLE reportdb.reportoo2 
SELECT 
dimaccount.accountnumber, sum(fctpersonaccount.balance) as last balance 
FROM 
organisedb.fctpersonaccount 
JOIN 
organisedb.dimaccount 
ON 
fctpersonaccount.accountkey - dimaccount.accountkey; 


恭喜 ! 你 已 经 完成 了 Hive 数据 仓库 的 创建 工作 。 


8.3.9 ”示例 报表 


report001 的 数据 结果 可 以 通过 可 视 化 设计 来 展现 ， 以 将 数据 转换 为 商业 故事 。 
对 所 有 余额 大 于 998.00 美元 的 账户 制 表 。 


SELECT * FROM reportdb.report001 WHERE balance > 998; 


这 将 返回 来 自 reportdb.reportooi 的 10 个 结果。 


表 8-1 reportdb.reportoo1 的 10 个 结果 


Firstname Lastname Accountno Balance 
ELISEO BOULWARE 68105 ($1 000.00) 
SHONNA HIGBY 18004 ($1 000.00) 
LOUISE MERINO 59136 ($1 000.00) 
KERSTIN SAUCEDA 82385 ($999.00) 
NANA BEHLING 30073 ($999.00) 
SHARDA DIALS 18946 ($1 000.00) 
VALARIE BLANKENSHIP 58597 ($1 000.00) 
JAZMINE HUNSAKER 69942 ($999.00) 
KENNETH KURTZ 30669 ($999.00) 
DELL HAWKS 48440 ($999.00) 


可 以 使 用 各 种 图 形 包 对 数据 进行 格式 化 。 例 如 ， 可 以 将 其 格式 化 为 饼 图 ， 如 图 8-21 所 示 。 
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图 8-21 HE 
也 可 以 格式 化 为 条 形 图 ， 如 图 8-22 所 示 。 
透支 余额 超过 998.00 美 元 的 客户 
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8.4 高 级 分 析 


还 有 几 个 高 级 分 析 程 序 可 以 增强 Hive 生态 系统 。 本 市 将 介绍 Hive 与 R 的 集成 , 因为 R 在 分 
析 环 境 中 提供 了 便捷 开源 的 Hive 访问 路 径 。 
值得 注意 的 包 如 下 。 
O hive 包 : 使 用 正确 的 包 ， 可 以 实现 R Hadoop Fil Hive 内 核 的 集成 。 
口 NexR RHive 2.0 包 : RHive 是 一 个 R 扩 展 包 , 有 助 于 通过 Hive 查询 进行 分 布 式 计算 。RHive 
允许 在 R 中 方便 地 使 用 HQL (Hive SQL ), 并 且 允 许 在 Hive 中 方便 地 使 用 RR 对 象 和 RR 所 
数 。 可 通过 https://github.com/nexr/RHive/wiki/User-Guide 获取 相关 用 户 指南 。 


8.5 ” 接 下 来 学 什么 


还 有 更 多 的 工具 可 以 用 于 Hive， 因 此 建议 你 选择 自己 最 喜欢 的 虚拟 化 工具 ， 而 且 你 会 找到 该 
平台 的 Hive 连接 融 。 你 已 经 学 完了 第 8 章 的 内 容 ,并且 应 该 具备 如 下 能 
口 了 解 基本 的 数据 仓库 组 件 
m 维度 及 其 类 型 
m 事实 和 度量 : 计算 事实 和 非 事 实 型 事实 
口 明白 如 何 为 业务 需求 创建 太阳 模型 
口 将 太阳 模型 转换 为 星 型 模式 
O 使 用 “检索 -评估 -过 程 -转换 -组 织 - 报 表 ” 设 计 原 则 将 星 型 模式 转换 为 Hive 代码 
口 了解 Hive 中 下 列 分 析 数 据 结构 的 构建 
m 检索 : 从 外 部 源 导 入 数据 
milf: 提高 数据 质量 
m 过 程 : 创建 Data Vault 
m 转换 : 创建 数据 仓库 
m 2. 创建 数据 集 市 
mide: 创建 报表 
现在 ， 你 可 以 构建 数据 仓库 和 分 析 模 型 了 。 在 第 9 音 ， 你 将 掌握 在 Hive 中 保护 数据 所 需 的 


技能 。 


Hive 性 能 调 优 


Hive 用 户 面临 的 一 个 最 大 的 挑战 是 运行 即席 查询 的 最 终 用 户 要 面 对 较 慢 的 响应 时 间 , 与 传统 
关系 数据 库 查 询 所 达到 的 性 能 相 比 , Hive 的 响应 速度 通常 慢 得 令 人 无 法 接受 , 并 且 经 常 让 你 纠结 
于 如 何 才能 达到 最 终 用 户 所 习惯 的 那 种 性 能 。 | 

本 章 介绍 了 一 套 诊断 和 改进 Hive 查询 性 能 的 系统 方法 ， 这 可 以 很 容易 地 应 用 于 大 多 数 已 有 
的 Hive 表 。 各 种 技术 以 累加 方式 应 用 ， 从 而 达到 复合 效果 。 通 过 这 个 过 程 ， 我 们 将 把 单个 Hive 
查询 的 执行 时 间 从 475 秒 缩短 到 49 秒 以 下 . 


9.1 Hive 性 能 检查 表 


在 本 章 中 ,我 们 将 研究 不 同 的 优化 技术 对 同一 查询 的 影响 ,以便 更 好 地 说 明 每 种 技术 的 效果 
用 于 该 测试 的 集群 配置 了 一 个 主 节点 ( 配 有 8 核 CPU 和 32GB AY RAM) 和 6 个 工作 节点 ( 每 个 
WAMA 4T CPU 和 32GB 的 RAM ), Ff A ZZ f Hive 1.2.1.2.3 WAS, 3x HA HL AE AS ih 2 
查找 航班 延误 (时间 超过 15 分 钟 ) 次 数 最 多 的 5 个 机 场 ， 其 出 发 机 场 的 风速 都 超过 1 米 / 秒 


SELECT origin, COUNT(*) as cnt 
FROM flights f JOIN airports a ON (f.origin = a.code) 
JOIN weather w ON (a.station = w.station AND w.year = f. 
year AND w.month = f.month and w.day=f.day) 
WHERE f.depdelay»15 and w.metric = 'AWND' and w.value>10 
GROUP by origin SORT BY cnt DESC LIMIT 5; 


FAY Ae a o HE 3 PSP CR, PT LAT PP EAS ee PEN] 

航班 数据 来 自 http://stat-computing.org/dataexpo/2009/the-data.html, FL a f 1987 年 到 
2008 年 美国 所 有 机 场 航班 延误 的 数据 。 该 数据 集 总 共 包 含 123 534 969 行 数据 ， 每 行 有 29 列 

机 场 数 据 包 含 了 美国 所 有 机 场 的 基本 信息 ， 可 以 用 于 将 机 场 代码 和 天 气 数 据 联系 起 来 。 该 
数据 集 包 含 『 3404 行 数据 ， 每 行 有 6 列 。 可 以 通过 网 址 http://stat-computing.org/dataexpo/2009/ 
airports.csv 下 载 。 

天 气 数 据 来 自 于 美国 国家 海洋 和 大 气管 理 局 (NOAA ) 网 站 的 历史 数据 ， 可 以 通过 网 址 
ftp://ftp.ncdc.noaa.gov/pub/data/ghcn/daily/by_year/$year.csv.gz 按照 年 份 下 载 数据 , 为 了 本 练习 , 我 
们 下 载 了 1987 年 到 2008 年 的 所 有 数据 , 得 到 的 数据 集 总 共有 636 511 075 行 数据 , 每 行 有 11 列 
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9.2 执行 引擎 


Hive 目前 支持 3 种 执行 引擎 ， 每 种 引擎 都 有 各 自 的 优 和 缺点。 值得 注意 的 是 ，Hive 有 一 个 默 
认 的 执行 引擎 , 这 是 由 hive-site.xml 文件 中 的 hive.execution.engine 属性 控制 的 , 也 可 以 在 运行 
时 更 改 该 属性 的 值 ， 根 据 具体 查询 重 写 此 设置 。 接 下 来 ,我 们 将 比较 一 下 MapReduce 执行 引擎 
和 Tez 执行 引擎 的 性 能 ， 通 过 让 两 个 引擎 运行 相同 的 查询 来 度量 每 个 引擎 的 性 能 。 


9.2.1 MapReduce 


MapReduce 执行 引擎 以 传统 的 MapReduce 作业 方式 来 运行 Hive 查询 。 它 是 最 初 的 执行 引擎 ,如 
果 你 的 查询 不 能 用 其 他 执行 引擎 来 执行 ， 它 将 是 最 安全 的 后 备 选项 。 通 过 将 hive.execution.engine 
属性 的 值 设置 为 mr ( 即 hive.execution.engine=mr )， 你 可 以 选择 该 执行 引擎。 出 于 本 练习 的 目 
的 ， 我 们 将 使 用 MapReduce 执行 引擎 执行 查询 ， 并 将 其 性 能 作为 性 能 改进 的 基准 。 该 查询 的 输 
出 显示 ， 执 行 查 询 花费 了 475.732 秒 ， 并 且 在 查询 过 程 中 将 711MB 的 中 间 数 据 写 入 磁盘 。 


MapReduce Jobs Launched : 

Stage-Stage-11: Map: 6 Cumulative CPU: 233.33 sec HDFS Read: 164317688 HDFS Write: 
711087924 SUCCESS 

Stage-Stage-2: Map: 13 Reduce: 50 Cumulative CPU: 1438.11 sec HDFS Read: 3278981109 
HDFS Write: 268969 SUCCESS 

Stage-Stage-3: Map: 4 Reduce: 1 Cumulative CPU: 15.57 sec HDFS Read: 292269 HDFS Write: 
5887 SUCCESS 

Stage-Stage-4: Map: 1 Reduce: 1 Cumulative CPU: 3.89 sec HDFS Read: 10052 HDFS Write: 
221 SUCCESS 

Stage-Stage-5: Map: 1 Reduce: 1 Cumulative CPU: 4.05 sec HDFS Read: 4787 HDFS Write: 57 


SUCCESS 

Total MapReduce CPU Time Spent: 28 minutes 14 seconds 950 msec 
OK 

ORD 1297377 

ATL 1112511 

DFW 933903 

LAX 626875 


PHX 584062 
Time taken: 475.732 seconds, Fetched: 5 row(s) 


92.2 Tez 


通过 减少 操作 和 限制 写 人 磁盘 的 中 间 数 据 量 ，Apache Tez 可 以 提供 比 MapReduce 执行 引擎 AB 
更 高 效 的 处 理 ， 如 图 9-1 所 示 。 正 如 你 所 看 到 的 ,传统 的 MapReduce £751 AIL TER, 来 
FH £f as ag rp qup CCS IPSI HDFS， 这 将 导致 磁盘 IO 性 能 的 损失 。 拿 右 侧 给 出 的 Tez 执行 
引擎 的 数据 流 进 行 对 比 可 以 发 现 , 在 Tez 执 行 引擎 的 执行 计划 中 , 约 简 器 的 中 间 数 据 将 直接 传递 
给 下 一 个 约 简 器 ， 这 样 就 省 去 了 将 数据 写 人 磁盘 的 开销 。 
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SELECT a.state, COUNT(*), AVERAGE(c.price) 
FROM a 
JOIN b ON {a.id = b.id) 
JOIN c ON (a.itemid = c.itemid) 
GROUP BY a.state 


Hive-Tez 


Tezji 必 和 免 了 不 必要 
的 HDFS 写 入 操作 


JOIN (a, c) 
SELECT c.price 


Hive-MapReduce 


I EN 


JOIN (a, c) 


JOIN(a, JOIN(a, b) 
GROUP BY a.state GROUP BY a.state 

() COUNT(*) 
AVERAGE(c. price) AVERAGE(c.price) 


图 9-1 执行 引擎 对 比 


[R] [R] 


SELECT b.id 


通过 将 hive.execution.engine 的 值 设 置 为 tez ( 即 hive.execution.engine-tez ), Jf H Em 
de 9-1 中 提 到 的 两 个 属性 : hive.prewarm.enabled-true 和 n Ae. 我 们 
来 度量 这 个 执行 引擎 的 性 能 。 然 后 重新 运行 查询 。 


set hive.execution.engine=tez; 

set hive. prewarm.enabled=true; 

set hive.prewarm.numcontainers=10; 
Total jobs = 1 

Launching Job 1 out of 1 


Status: Running (Executing on YARN cluster with App id application 1457719973622 0118) 


VERTICES STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED 
Map 1 ..... SUCCEEDED 22 22 0 0 0 
Map 5 «asus SUCCEEDED 1 1 0 0 0 
MID G sas es SUCCEEDED 29 29 0 0 0 
Reducer 2 ..SUCCEEDED 28 28 0 0 0 
Reducer 3 ..SUCCEEDED 14 14 0 0 0 
Reducer 4 ..SUCCEEDED 1 1 0 0 0 
VERTICES: 06706 [smezzze——m-—--9»] 200% ELAPSED TIME 
OK 

ORD 1297377 

ATL 1112511 

DFW 933903 

LAX 626875 

PHX 584062 

Time taken: 166.448 seconds, Fetched: 5 row(s) 


如 你 所 见 ， 仅仅 更 改 执行 引擎 就 可 以 使 执行 时 间 减 少 309 秒 ， 接 近 65%. 


行 引 擎 的 优势 ， 


你 还 需要 调整 表 9-1 中 列 出 的 配置 设置 


为 了 最 大 化 Tez 执 
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表 9-1 Tez 相关 的 配置 设置 


mod | 9 值 LR: 
HiveServer 推 的 大 小 默认 1GB 内 存 ， 在 此 基础 上 增加 内 存 
hive.prewarm.enabled 告诉 Hive 创建 Tez 容器 
hive.prewarm.numcontainers 调整 Tez EHAA AY Bt 
TEZ CONTAINER MAX JAVA HEAP FRACTION co. | Tez 容器 的 规模 是 YARN 容器 规模 的 倍数 
T 


hive.auto.convert.join.nonconditionaltask.size 不 同 数值 调整 映射 连接 的 规模 


9.3 存储 格式 


有 些 文件 格式 专门 针对 Hive 使 用 进行 了 优化 ， 这 其 中 就 包括 ORC 文件 和 Parquet 文件 。 这 
两 种 格式 都 旨 在 减少 查询 期 间 从 磁盘 读 取 的 数据 量 ， 从 而 提高 查询 的 总 体 性 能 。 


93.1 ORC 格式 


ORC ( Optimized Row Columnar ) 格式 是 一 种 基于 列 的 存储 格式 ， 这 意味 着 ， 它 并 不 是 按 单 
个 数据 行 连续 将 全 部 数据 存储 在 人 磁盘 上 , 而 是 按 每 列 连 续 存 储 数据 。 正如 你 在 图 9-2 中 所 看 到 的 ， 
这 样 针 对 那些 不 包含 某 些 列 的 查询 ， 就 可 以 避免 不 必要 的 磁盘 访问 ,可 以 “ 跳 过 ”那些 在 绪 末 中 
不 需要 的 大 部 分 数据 。 


256MB 数 据 带 


256MB 数 据 带 


256MB 数 据 带 


图 9-2 ORC 存储 格式 
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"ORC 格式 是 一 种 可 分 割 的 文件 格式 ， 这 意味 着 一 个 文件 可 以 被 分 割 成 多 个 可 并 行 处 理 的 块 . 
每 个 数据 块 被 进一步 细 分 为 256MB 的 数据 带 ， 而 这 些 数 据 带 则 用 于 将 列 数据 存储 在 一 起 。 任 何 
不 需要 特定 列 值 的 查询 都 可 以 “ 跳 过 ”这 个 数据 带 。ORC 格式 还 保留 了 内 置 的 索引 、min/max 和 
其 他 有 关 每 个 数据 带 内 容 的 元 数据 ,它们 分 别 位 于 该 数据 带 的 某 个 单独 的 “索引 数据 ”部 分 , C 
允许 基于 查询 筛选 器 参 数 对 数据 带 进 行 快 速算 选 。 

为 了 度量 ORC 的 性 能 影响 ,我 们 必须 首先 创建 原始 表 的 两 个 副本 ,它们 将 以 ORC 格式 存储 。 
完成 此 操作 最 快 的 方法 是 运行 以 下 CREATE TABLE AS SELECT ( CTAS ) 语句 。 然 后 ， 修 改 并 执行 
查询 以 使 用 新 创建 的 表 。 


CREATE TABLE flights orc STORED AS ORC tblproperties("orc.compress"-"SNAPPY") 
AS SELECT * FROM flights; 
CREATE TABLE weather orc STORED AS ORC tblproperties("orc.compress"-"SNAPPY") 
AS SELECT * FROM weather; 
SELECT origin, COUNT(*) as cnt 
FROM flights orc f JOIN airports a ON (f.origin - a.code) JOIN weather orc w ON (a.station - 
w.Station AND w.year = f.year AND w.month = f.month and w.day=f.day) 
WHERE f.depdelay»15 and w.metric - 'AWND' and w.value»10 
GROUP by origin SORT BY cnt DESC LIMIT 5; 


Total jobs - 1 
Launching Job 1 out of 1 


Status: Running (Executing on YARN cluster with App id application 1457719973622 0119) 


VERTICES STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED 
Map 1 SUCCEEDED 22 22 0 0 0 0 
Map 5 SUCCEEDED 1 1 0 0 0 0 
Map 6 .... SUCCEEDED 29 29 0 0 0 0 
Reducer 2 ...SUCCEEDED 28 28 0 0 0 0 
Reducer 3 ...SUCCEEDED 14 14 0 0 0 0 
Reducer 4 ...SUCCEEDED 1 f 0 0 0 0 
VERTICES: 06/06 【==========================>>| 100% ELAPSED TIME: 61.60 s 
OK 

ORD 1297377 

ATL 1112511 

DFW 933903 

LAX 626875 

PHX 584062 


Time taken: 66.664 seconds, Fetched: 5 row(s) 


如 你 所 见 ， 使 用 ORC 格式 存储 导致 执行 时 间 减 少 了 100 秒 ， 即 减少 了 超过 6096. A f Hz 


程度 发 挥 ORC 存储 格式 的 优势 ， 你 可 能 还 需要 在 创建 表 时 调整 表 9-2 中 列 出 的 配置 设置 
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R 9-2 ORC 格式 相关 的 配置 设置 


AL. 


高 等 级 压缩 ( 取 值 为 NONE, ZLIB 和 SNAPPY 中 之 一 ) 


mR 性 


Orc.Compress 


orc.compress.size 每 个 压缩 块 中 的 字 节 数 

orc.stripe.size 每 个 带 的 字 节 数 

orc.row.index.stride 索引 记录 之 间 的 行 数 ( 必须 大 于 或 等 于 1000 ) 
orc.create. index 是 否 要 创建 行 索引 


9.3.2 Parquet 格式 


Parquet 格式 是 男 一 种 基于 列 的 存储 格式 ， 它 也 将 每 列 的 所 有 数据 连续 存储 在 磁盘 上 ， 因 此 
具有 与 ORC 类 似 的 性 能 优势 。 为 了 准确 度量 Parquet 的 性 能 影响 , 我 们 必须 首先 创建 原始 表 的 两 
个 副本 ， 这 两 个 表 将 以 Parquet 格式 存储 。 完 成 此 操作 的 最 快 方 法 是 运行 以 下 CREATE TABLE AS 
SELECT (CTAS ) 语句 。 然 后 ,我 们 将 修改 并 执行 查询 以 使 用 新 创建 的 表 。 


CREATE TABLE flights parquet STORED AS Parquet AS SELECT * FROM flights; 
CREATE TABLE weather parquet STORED AS Parquet AS SELECT * FROM weather; 


SELECT origin, COUNT(*) as cnt 

FROM flights parquet f JOIN airports a ON (f.origin = a.code) JOIN weather parquet w ON 
(a.station = w.station AND w.year = f.year AND w.month = f.month and w.day-f.day) 

WHERE f.depdelay»15 and w.metric - 'AWND' and w.value»10 

GROUP by origin SORT BY cnt DESC LIMIT 5; 


Launching Job 1 out of 1 


Status: Running (Executing on YARN cluster with App id application 1457719973622 0121) 


VERTICES STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED 
VE TTE SUCCEEDED 67 67 0 0 0 0 
Mi A sssri SUCCEEDED 1 1 0 0 0 0 
Map 6 ........ SUCCEEDED 60 60 0 0 0 0 
Reducer 2 ....SUCCEEDED 1 1 0 0 0 0 
Reducer 3 ....SUCCEEDED 1 1 0 0 0 0 
Reducer 4 ....SUCCEEDED 1 1 0 0 0 0 
VERTICES: 06/06 [==========================>>] 100% ELAPSED TIME: 112.39 s 
OK 

ORD 1297377 

ATL 1112511 

DFW 933903 

LAX 626875 

PHX 584062 


Time taken: 113.938 seconds, Fetched: 5 row(s) 


Parquet 存储 格式 导致 执行 时 间 减 少 了 53 秒 ， 减 少 了 几乎 32%。 虽 然 这 相对 于 仅 使 用 Tez TA 
行 引 黎 来 说 已 经 有 所 改进 ,但 是 仍然 不 如 ORC 格式 市 来 的 性 能 改进 。 
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94 ”矢量 化 查询 执行 


Hive 的 默认 查询 执行 引擎 一 次 处 理 一 行 ， 因 此 在 藤 套 循环 中 需要 有 多 层 虚 拟 方 法 调用 ， 从 
CPU 的 视角 来 看 这 是 非常 低 效 的 。 矢 量化 查询 执行 是 一 种 Hive 特性 , 其 目的 是 按照 每 批 1024 行 
读 取 数据 ， 并 且 一 次 性 对 整个 记录 和 集合 ( 而 不 是 对 单条 记录 ) 应 用 操作 ， 进 而 消除 那些 效率 低下 
的 问题 。 对 于 典型 的 查询 操作 ( 如 扫描 、 筛 选 、 合 计 和 连接 )， 已 经 证 明 ， 这 种 矢量 执行 模式 的 
速度 提高 了 一 个 数量 级 。 而 要 使 用 矢量 化 查询 执行 ， 就 必须 以 ORC 格式 存储 数据 。 

让 我 们 来 度量 该 执行 引擎 的 性 能 。. 先 将 hive.vectorized.execution.enabled 属性 的 值 设置 为 
true， 并 且 针 对 有 ORC 支持 的 表 运 行 查 询 。 


set hive.vectorized.execution.enabled = true; 
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SELECT origin, COUNT(*) as cnt 

FROM flights orc f JOIN airports a ON (f.origin = a.code) JOIN weather orc w ON (a.station = 
w.station AND w.year = f.year AND w.month = f.month and w.day=f.day) 

WHERE f.depdelay»15 and w.metric = 'AWND' and w.value>10 

GROUP by origin SORT BY cnt DESC LIMIT 5; 


Launching Job 1 out of 1 


Status: Running (Executing on YARN cluster with App id application 1457719973622 0122) 


VERTICES STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED 
MED d. sas aunt SUCCEEDED 22 22 -= 0 0 0 0 
PED S. svaakes SUCCEEDED 1 1 0 0 0 0 
"aD Qi occus SUCCEEDED 29 29 0 0 0 0 
Reducer 2 ...SUCCEEDED 28 28 0 0 0 0 
Reducer 3 ...SUCCEEDED 14 14 0 0 0 0 
Reducer 4 ...SUCCEEDED 1 1 0 0 0 0 
VERTICES: 06/06 [==========================》》] 100% ELAPSED TIME: 50.60 s 
OK 

ORD 1297377 

ATL 1112511 

DFW 933903 

LAX 626875 

PHX 584062 


Time taken: 52.174 seconds, Fetched: 5 row(s) 


相对 于 仅 使 用 Tez 和 ORC 来 说 ,矢量 化 查询 执行 导致 执行 时 间 缩 得 了 128b, 大 约 降 低 了 18% 
9.5 查询 执行 计划 
Hive 驱动 程序 负责 将 SQL 语句 转换 为 针对 目标 执行 引擎 的 执行 计划 ， 其 步骤 如 图 9-3 所 示 
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SQL 


WENT de —— 规划 组 


见 mepo Hive Metastore 


xX J" 


逻辑 运算 树 表 的 元 数据 


查询 优化 左 


| 生成 
\/ 


ET 


物理 运算 树 


一 一 > 执行 引擎 


图 9-3 Hive 驱动 程序 的 执行 流程 


(1) 解析 器 解析 SQL 语句 并 生成 一 个 抽象 语法 树 (abstract syntax tree, AST )， 它 摘 述 了 为 生 
成 正确 的 结果 集 所 必须 执行 的 逻辑 运算 ， 例 如 SELECT, JOIN, UNION, 4H. 、 投 影 等 。 

(2) 规划 器 从 Hive Metastore 中 检索 表 的 元 数据 ， 包 括 HDFS 文件 位 置 、 存 储 格式 、 行 数 等 。 

(3) 查询 优化 器 使 用 前 面 步骤 中 的 AST 和 表 的 元 数据 ， 生 成 一 个 物理 运算 树 ， 即 所 谓 的 执行 
计划 ， 它 描述 了 为 检索 数据 所 必须 执行 的 所 有 物理 运算 ,例如 般 套 循环 连接 、 排 序 合 并 连接 、 散 
列 连 接 FRG TERE 

查询 优化 需 生 成 的 执行 计划 最 终 决定 了 将 在 你 的 Hadoop 集群 上 执行 的 任务 。 因 此 ， 它 们 对 
数据 分 析 系 统 (如 Hive) 的 性 能 影响 最 大 ， 因 为 生成 正确 的 执行 计划 与 生成 错误 的 执行 计划 将 
产生 很 大 区 别 ， 可 能 意味 着 几 秒 、 几 分 钟 甚至 几 小 时 的 额外 执行 时 间 。 

通过 利用 表 的 统计 信息 , 基于 代价 的 优化 可 以 帮助 Hive 驱动 程序 生成 一 个 最 优 的 执行 计划 ， 
在 性 能 代价 方面 对 其 生成 的 每 个 可 能 的 执行 计划 做 出 明智 的 决 倘 。 
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9.5.1 基于 代价 的 优化 


基于 代价 的 优化 〈cost-based optimization, CBO ) 引 敬 利用 Hive Metastore 的 统计 数据 来 产 
生 最 优 的 查询 计划 。 用 于 优化 的 统计 信息 有 两 种 类 型 : 一 种 是 表 统计 信息 , 包括 表 的 未 压缩 大 小 、 
行 数 和 用 于 存储 数据 的 文件 数 ; 另 一 种 是 列 统计 信息 ， 其 中 包括 NDV ( 唯一 值 的 个 数 ) 和 最 小 
值 /最 大 值 /计数 值 。 

CBO 进行 了 连接 重 排序 ， 改 进 了 针对 星 型 连接 模式 和 浓密 连接 模式 的 计划 ， 并 提供 了 基于 
样本 查询 的 改进 机 会 。CBO 的 缺点 是 ， 你 必须 收集 和 维护 正确 的 表 统 计 信 息 ， 以 使 基于 代价 的 
优化 引擎 变 得 有 效 。 遗 憾 的 是 , 表 统 计 信息 的 收集 是 一 项 开销 很 大 的 操作 , 但 是 对 于 那些 收集 了 统 
计 信 息 的 表 而 言 ， 所 有 后 续 查 询 都 可 以 从 中 获 益 。 通 过 在 hive-site.xml 中 将 hive. stats .autogather 
属性 设置 为 true, 你 可 以 自动 化 表 统 计 信息 的 全 局 收集 。 因为 该 属性 的 值 并 不 是 我 们 第 一 次 创建 
ORC 文 持 的 表 时 的 值 ， 所 以 我 们 需要 执行 以 下 命令 来 收集 表 的 统计 信息 。 


ANALYZE TABLE weather ORC COMPUTE STATISTICS; 
Table weather stats: [numFiles=29, numRows=832252480, totalSize=2600971165, 
rawDataSize=242185471680 | 


ANALYZE TABLE weather ORC COMPUTE STATISTICS FOR COLUMNS; 


VERTICES STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED 

Map 1 .......9UCCEEDED 29 3 TN 0 0 0 | 
Reducer 2 ...SUCCEEDED 1 1 0 0 0 0 
(ICS: di DUNG PED TRE DATOS 6 
OB 


Time taken: 216.449 seconds 


ANALYZE TABLE flights ORC COMPUTE STATISTICS; 
Table flights stats: [numFiles=22, numRows=123534969, totalSize=1632812702, 
rawDataSize=73119762912 | 


ANALYZE TABLE flights ORC COMPUTE STATISTICS FOR COLUMNS; 


VERTICES STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED 

Map 1.......SUCCEEDED 220 no 0 0 0 0 
Reducer 2 ...SUCCEEDED 1 1 0 0 0 0 
VERTICES: 02/02 [mse] 100% ELAPSED TIME: 184.85 5 - 
0 


Time taken: 186.767 seconds 
一 旦 计算 出 统计 信息 ， 就 可 以 通过 在 Hive 内 设置 以 下 属性 来 启用 CBO， 这 样 我 们 运行 的 每 
个 查询 都 可 使 用 基于 代价 的 优化 引擎 。 


9.5 查询 执行 计划 209 


SET hive.cbo.enable=true; 

SET hive.compute.query.using.stats = true; 
SET hive.stats.fetch.column.stats = true; 
SET hive.stats.fetch.partition.stats = true; 


SELECT origin, COUNT(*) as cnt 
FROM flights f JOIN airports a ON (f.origin = a.code) 
JOIN weather w ON (a.station = w.station AND w.year = f. 
year AND w.month = f.month and w.day=f.day) 
WHERE f.depdelay»15 and w.metric = 'AWND' and w.value»10 
GROUP by origin SORT BY cnt DESC LIMIT 5; 


VERTICES STATUS TOTAL COMPLETED RUNNING PENDING FAILED KILLED 
MSD 2 cueva SUCCEEDED 22 22 0 0 0 0 
MAD A aian SUCCEEDED 1 1 0 0 0 0 
Mab 6 sssusa SUCCEEDED 29 29 0 0 0 0 
Reducer 2 ...SUCCEEDED 71 77 0 0 0 0 
Reducer 3 ...SUCCEEDED 39 39 0 0 0 0 
Reducer 4 ...SUCCEEDED 1 1 0 0 0 0 
VERTICES: 06/06 |[==========================》》| 100% ELAPSED TIME: 45.98 s 
OK 

ORD 1297377 

ATL 1112511 

DFW 933903 

LAX 626875 

PHX 584062 


Time taken: 48.4 seconds, Fetched: 5 row(s) 


CBO 引擎 将 执行 时 间 进 一 步 缩短 了 ATb, BI 7%， 带 来 了 最 终 优化 结果 。 虽 然 CBO 的 影响 
并 不 显著 ,但 在 其 他 一 些 查 询 中 的 影响 更 加 深远 ,例如 当 你 的 连接 语句 没有 处 于 最 佳 顺 序 时 。 为 
了 查看 CBO 产生 的 执行 计划 , 你 可 以 使 用 Hive 的 EXPLAIN 命令 来 显示 执行 计划 , 其 语法 如 下 所 示 。 


EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query 


EXPLAIN 命令 的 输出 包含 3 个 部 分 : 该 查询 的 抽象 语法 树 、 该 计划 不 同 阶段 之 间 的 依赖 关系 ， 
以 及 每 个 阶段 的 描述 。 例 如 ， 请 看 下 面 的 EXPLAIN 命令 和 相应 的 执行 计划 。 


EXPLAIN 
SELECT origin, COUNT(*) as cnt 
FROM flights f JOIN airports a ON (f.origin = a.code) 
JOIN weather w ON (a.station = w.station AND w.year = f. 
year AND w.month = f.month and w.day=f.day) 
WHERE f.depdelay»15 and w.metric - 'AWND' and w.value»10 
GROUP by origin SORT BY cnt DESC LIMIT 5; 


OK 

STAGE DEPENDENCIES: 
Stage-1 is a root stage 
Stage-O depends on stage 1. 
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STAGE PLANS: 
Stage: Stage-1 
Tez 

Edges: 
Map 1 <- Map 5 (BROADCAST EDGE), Map 6 (BROADCAST EDGE) 
Reducer 2 <- Map 1 (SIMPLE EDGE) 
Reducer 3 <- Reducer 2 (SIMPLE EDGE) 
Reducer 4 <- Reducer 3 (SIMPLE EDGE) 

DagName: ch08 2016042270101 a64ba841-734b6-3517-8f96-ed7bf89e92b4:2 

Verticies: 

Map 1 
Map Operator Tree 


Map 5 


Map 6 


9.5.2 执行 计划 


我 们 即将 要 仔细 审查 每 个 映射 操作 , 但 是 先 来 看 看 可 以 从 EXPLAIN 命令 输出 结果 的 这 一 部 9 
收集 哪些 信息 。 首 先 ,我 们 可 以 看 到 , 在 这 个 执行 计划 中 只 有 两 个 阶段 一 一 阶段 1 执行 所 有 生成 
结果 的 工作 ， 阶 段 0 将 结果 返回 给 最 终 用 户 ， 而 且 它 依赖 于 阶段 1。 其 次 ， 我 们 可 以 看 到 阶段 ] 
的 有 向 无 环 图 (DAG ) 如 图 9-4 所 示 。 


映射 5 


FO 


阶段 1 映射 阶段 ZyfüaR2 阶段 3 2) (ei) air 3 阶段 4 2) fj i4 
映射 6 


图 9-4 执行 计划 的 有 向 无 环 图 


接 下 来 我 们 将 看 到 ， 映 射 阶段 5 将 筛选 器 应 用 于 数据 集 ， 为 JOIN 操作 准备 天 气 数据 ， 只 返 
[n] Ej WHERE 子 句 中 条 件 相 匹 配 的 行 。 与 之 类 似 ， 映射 阶段 6 在 将 数据 发 送 到 映射 阶段 1 之 前 ， 对 
airport 表 应 用 了 筛选 器 , 它 执行 了 3 路 连接 ， 对 天 气 数据 、 机 场 数 据 和 航班 数据 进行 连接 操作 ， 
2y fala 3 AZ fal tie 4 在 向 用 户 返 回 结 果 集 之 前 执行 COUNT PRŽI LIMIT 哺 数 。 现 在 让 我 们 详细 看 
看 这 些 阶 段 ， 从 有 辣 无 环 图 的 顶部 开始 ， 沿 着 执行 链 问 下 运行 。 


Map 5 
Map Operator Tree: 


TableScan 
alias: 
filterE 


W 


Xpr: 
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(((((station is not null and year is not null) and month 


is not null) and day is not null) and (metric-'AWND')) and (value » 
10)) (type:boolean) 


Statist 


lcge 


Num rows: 636511075 Data size: 2592872704 Basic stats: 


COMPLETE Column stats: COMPLETE 
Filter Operator 


predica 


te: 


(((((station is not null and year is not null) and month 


is not null) and day is not null) and (metric-'AWND')) and (value » 
10)) (type:boolean) 


Statist 


1cs: 


Num rows: 1982900 Data size: 394597100 Basic stats: 


COMPLETE Column stats: COMPLETE 
Reduce output Operator 
Key expressions: station (type: string), year (type: int), month(type: 


Int), 


day(type: int) 


Sort order: ++++ 
Map-reduce partition columns: station (type: string), year (type: 
int), month(type: int), day(type: int) 
Statistics: Num rows: 1982900 Data size: 394597100 Basic stats: 
COMPLETE Column stats: COMPLETE 

Execution mode: Vectorized 


对 映射 阶段 5 的 观察 : 它 正在 处 理 weather 表 ， 并 且 基 于 该 表 的 全 部 4 个 分 区 键 应 用 了 一 个 


fifi pen, 这 有 助 于 减少 该 表 中 要 人 处理 的 记录 数量 , 只 需要 处 理 该 表 636 511 075 行 记录 中 的 1 982 900 


J，。 因 此 ， 我 们 并 不 需要 人 处理 2.6GB 的 数据 ， 只 需要 处 理 其 中 8MB 的 数据 。 


Map 6 


Map Operator Tree: 


TableScan 
alias: 
filterE 
Statist 
Stats: 


a 
Xpr: 
LES: 
NONE 


(code is not null and station is not null) (type: boolean) 
Num rows: 3404 Data size: 166345 Basic stats: COMPLETE Column 


Filter Operator 
predicate: (code is not ny and station is not null)(type: boolean) 
Statistics: Num rows: 851 Data size: 41586 Basic stats: COMPLETE 
Column Stats: NONE 
Reduce Output Operator 
key expressions: code (type: string) 
sort order: + 
Map-reduce partition columns: code (type: string) 
Statistics: Num rows: 851 Data size: 41586 Basic stats: COMPLETE 
Column Stats: NONE 
Value expressions: station (type: string) 


对 映射 阶段 6 og 它 处 理 的 是 airport 表 ， 该 表 开 始 时 只 有 3404 行 ， 但 是 映射 器 将 其 


进一步 痛 选 为 85$1 和 


Map 1 


， 并 为 映射 连接 操作 【〈 在 映射 阶段 1 中 出 现 ) 准备 数据 集 。 


Map Operator ‘Tree: 


TableScan 
alias: 


f 
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filterExpr: ((((origin is not null and year is not null) and month is not 
null) and day is not null) and (depdelay > 15)) (type: boolean) 
Statistics: Num rows: 41178523 Data size: 4238297753 Basic stats: 
COMPLETE Column stats: COMPLETE 
Filter Operator 
predicate: ((((origin is not null and year is not null) and month is 
not null) and day is not null) and (depdelay > 15)) (type: boolean) 
Statistics: Num rows: 41178523 Data size: 4238297753 Basic stats: 
COMPLETE Column stats: COMPLETE 
Map Join Operator 
condition map: 
Inner join 0 to 1 
condition expressions: 
O {year} {month} {day} {origin} 
1 {station} 
keys: 
O origin (type: string) 
1 code (type: string) 
outputColumnNames:  colO, coli, col2, col16, col37 
input vertices: 
1 Map 6 
Statistics: Num rows: 4596156 Data size: 4662127629 Basic stats: 
COMPLETE Column stats: NONE 
Map Join Operator 
condition map: 
Inner Join O to 1 
Condition expressions: 
O ( col16] 
1 
keys: 
O col37 (type: string), colo (type: int), coli (type: 
int), col2 (type: int) 
1 station (type: string), year (type: int), month (type: 
int), day (type: int) 
outputColumnNames: col16 
input vertices: 
1 Map 5 
Statistics: Num rows: 49825772 Data size: 5128340503 Basic 
stats: COMPLETE Column stats: NONE 


如 你 所 见 ，CBO 帮助 我 们 生成 了 一 个 最 优 执行 计划 ,在 该 计划 的 执行 过 程 中 ， 从 磁盘 读 取 
和 处 理 的 数据 量 已 经 尽 可 能 早 地 减少 ， 这 使 整个 工作 更 加 高 效 。 


9.5.3 ”性 能 检查 表 小 结 


总 的 来 说 ， 我 们 可 以 通过 使 用 Tez、ORC 存储 格式 、 和 天 量化 查询 执行 和 CBO 引擎 等 技术 来 
减少 涉及 两 个 大 表 的 单个 查询 的 执行 时 间 ， 可 以 从 475 秒 缩短 到 A9 秒 以 下 。 最 重要 的 是 ， 只 需 
少量 工作 就 可 以 将 大 多 数 (甚至 缩短 全 部 ) 技术 都 应 用 到 你 现 有 的 大 多 数 Hive 表 中 ， 
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Hive 的 安全 性 


对 于 所 有 组 织 而 言 ,数据 都 是 最 有 价值 的 资产 之 一 ,信息 丢 失 可 能 是 公司 最 可 怕 的 对 梦 之 一 。 
这 种 性 质 的 事件 不 仅 会 造成 重大 的 财产 损失 , 而且 还 会 对 公司 的 声誉 造成 重大 损害 。 需要 恰当 的 
安全 解决 方案 才能 保护 数据 资产 免 受 破坏 。 要 想 实现 强大 的 安全 解决 方案 , 需要 一 个 整体 规划 和 
没 计 阶段 ， 该 阶段 的 一 个 强烈 需求 是 识别 与 平台 相关 的 风险 。 

Hadoop 是 一 个 分 布 式 系统 ,用 于 在 一 个 名 为 数据 湖 的 单一 共享 平台 上 存储 和 处 理 大 量 数据 。 
将 各 种 系统 的 数据 收集 到 数据 湖 中 有 很 多 好 处 。 它 允许 数据 科学 家 通过 关联 存储 在 各 种 “竖井 ” 
(silo) 中 的 数据 集 来 发 现 各 种 见解 。 各 种 业务 用 户 都 会 对 这 些 数据 集 感 兴趣 ， 不 过 他 们 应 该 只 
能 够 访问 目 己 应 该 访问 的 数据 。 某 些 行 业 中 存在 一 些 严格 的 规则 ， 驱 动 不 同 类 型 的 用 户 或 业务 
单元 之 间 存 在 差异 化 的 访问 。 在 这 个 领域 运营 的 组 织 经 党 要 投入 大 量 资 金 以 确保 能 够 实现 正确 
的 控制 。 

在 本 曹 中， 我 们 将 讨论 数据 安全 性 的 各 个 方面 ， 并 讨论 Hive 当前 的 安全 状态 。 我 们 还 将 介 
绍 Hive 中 各 种 类 型 的 特权 ， 这 些 特权 是 使 用 Apache Ranger ( Hadoop 的 安全 解决 方案 ) 来 维护 
的 。 最 后 ， 我 们 还 将 了 解 Apache Ranger 如 何 维护 那些 使 用 Hive 访问 数据 的 审计 记录 。 


10.1 数据 安全 性 的 几 个 方面 


在 人 研究 Hadoop 的 安全 状态 之 前 ， 让 我 们 讨论 一 下 数据 安全 解决 方案 的 各 个 方面 ， 如 表 10-1 
AP ZAS s 


410-1 数据 安全 性 的 各 个 方面 


安全 性 方面 功 能 fF 用 
号 份 认证 /边界 防护 认证 用 户 和 系统 我 是 谁 /请 证 明 ? 
授权 提供 对 数据 的 访问 我 能 干什么 ? 
管理 中 心 管理 和 一 致 性 安全 我 们 如 何在 整个 集群 上 设置 策略 ? 
审计 维护 一 条 数据 访问 记录 ETITA? 


数据 保护 | 保护 静态 和 动态 的 数据 我 如 何 对 静态 数据 和 通过 线路 发 送 的 数据 进行 加 密 ? 
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10.1.1 身份 认证 


号 份 认证 是 一 个 验证 某 人 身份 的 过 程 ， 也 就 是 说 , 确保 某 人 是 其 所 声称 的 人 。 这 是 通过 将 个 
人 或 软件 服务 提供 的 凭据 与 存储 在 文件 或 身份 认证 服务 器 上 的 凭据 进行 比较 来 完成 的 -。 如 果 赁 据 
匹配 ， 则 用 户 或 机 需 将 被 授予 访问 权限 。 这 是 授予 用 户 访问 任何 系统 的 权限 的 第 一 个 步 又。 各 种 
认证 系统 使 用 不 同 的 方法 来 实施 身份 认证 。 企业 系 统 要 求 身 份 认 证 机 制 足够 严格 ,以 确保 任 据 不 
容易 被 猜测 或 者 被 禄 听 网 络 的 人 破坏 。 


10.1.2 ”授权 


授权 是 控制 系统 中 已 认证 用 户 可 访问 资源 的 一 种 方法 。 在 一 个 多 租户 系统 中 , 这 可 能 是 最 关 
键 的 安全 性 要 素 。 如 果 没 有 适当 的 授权 系统 ， 就 无 法 控制 谁 可 以 访问 什么 资源 。 每 当 经 过 身份 认 
证 的 用 户 请 求 访问 某 一 资源 时 , 授权 系统 都 会 使 用 访问 控制 规则 来 判定 是 否 应 授予 该 用 户 访问 该 
资源 的 权限 。 这 些 访问 控制 规则 是 由 安全 管理 员 创建 的 。 


10.4.3 ”管理 


管理 是 管理 系统 用 户 的 过 程 。 随 着 系统 中 用 户 数量 的 增长 ,这 将 成 为 一 项 复杂 的 挑战 。 你 可 
以 在 系统 中 创建 最 复杂 的 安全 策略 , 但 是 如 果 不 能 正确 地 将 它们 应 用 于 用 户 ， 系统 就 不 会 真正 安 
全 。 因 此 , 用 户 管 理 员 不 仅 要 确保 定义 正确 的 策略 , 还 要 确保 它们 被 正确 应 用 于 各 种 类 型 的 用 户 
大 多 数 公司 通常 会 定期 进行 检查 ， 以 确保 安全 策略 正常 应 用 , 并 且 没 有 背离 定义 它们 的 初衷 。 例 
如 ， 确 保 特 定 组 中 的 用 户 不 能 访问 他 们 不 需要 的 系统 部 分 。 


10.1.4 审计 


审计 是 一 个 维护 过 程 , 用 于 跟踪 所 有 向 用 户 授予 或 拒绝 的 访问 。 审 计 跟 踪 提 供 了 系统 安全 名 
构 日 常 健康 状况 的 视图 。 通 过 查看 审计 跟踪 , 管理 员 可 以 确定 谁 访问 了 什么 资源 ,是 否 有 用 户 试 
图 访问 他 们 不 应 该 访问 的 资源 。 在 许多 行业 中 , 保持 审计 跟踪 通常 是 一 项 法 律 要 求 ， 而 企业 需要 
向 对 其 整个 安全 基础 设施 进行 定期 审计 的 第 三 方 公司 展示 这 些 ， 


10.1.5 ”数据 保护 


在 当今 世界 ， 对 于 任何 企业 而 言 ， 数 据 都 是 最 重要 的 资产 之 一 。 需 要 采用 不 同 的 安全 标准 
(比如 PCI DSS ) 来 保护 这 些 数据 。 这 种 保护 既 针 对 静态 数据 ， 也 包括 那些 被 用 户 访问 的 数据 
有 多 种 安全 协议 可 以 确保 在 线 数据 ( 在 访问 时 ) 是 安全 的 。 这 些 协议 被 互联 网 上 的 各 种 系统 广泛 
使 用 。 但 是 ,系统 还 需要 确保 存储 在 磁盘 上 的 数据 也 受到 了 保护 。 即 使 有 人 从 数据 中 心 窃 取 了 物 
理 磁 盘 ， 存 储 在 其 中 的 信息 也 应 该 得 到 某 种 方式 的 保护 ， 使 之 无 法 被 解释 。 
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10.2 Hadoop 的 安全 性 


自 出 现 以 来 ，Hadoop 在 功能 和 安全 数据 方面 都 取得 了 长 足 的 进步 。 它 最 初 是 一 个 在 分 布 式 
平台 上 存储 和 索引 Web 的 项 目 ， 那 时 候 实 现 性 能 要 求 和 其 他 功能 比 确保 具有 适当 的 安全 措施 更 
重要 。Hadoop 的 早期 版 本 依赖 于 查询 操作 系统 层级 的 参数 来 交叉 验证 用 户 名 。 这 些 参 数 可 以 很 
容易 地 设置 为 任何 允许 模拟 的 值 。 然 而 ， 随 着 Hadoop 越 来 越 流 行 ， 越 来 越 多 的 公司 开始 使 用 它 
来 存储 和 处 理 大 型 集群 中 的 大 规模 数据 集 。 

YARN 的 理念 使 得 Hadoop“ 坚 井 ” 进 一 步 转变 为 企业 数据 湖 ， 可 以 文 持 各 种 业务 单元 运行 
批 处 理 、 交 互 式 和 实时 的 工作 负载 。 缺 乏 安全 性 是 Hadoop 推广 应 用 中 的 一 个 巨大 的 障碍 ， 并 且 
社区 早已 意识 到 了 这 一 点 。Hadoop 的 分 布 式 特性 使 得 在 集群 中 实现 安全 性 变 得 困难 。 典 型 的 
Hadoop 集群 由 许多 节点 组 成 ， 会 在 多 个 层级 发 生 客户 端 处 理 与 实际 作业 处 理 之 间 的 交互 。 很 多 
时 候 ， 提 交 作 业 的 用 户 与 在 处 理 时 实际 执行 代码 的 用 户 不 同 。Hadoop 生态 系统 中 添加 的 各 种 处 
理 引擎 甚至 使 保证 Hadoop 的 安全 性 变 得 更 加 困难 ， 却 又 使 安全 性 变 得 更 加 重要 。 多 个 处 理 引擎 
以 分 布 式 方 式 执行 ,而 且 需 要 在 多 个 层级 执行 授权 检查 。 现 在 通过 将 Hadoop 基础 设施 与 Apache 
Ranger 集成 在 一 起 来 处 理 此 类 问题 。 

本 章 的 目的 不 是 详细 介绍 Hadoop 中 安全 选项 的 历史 ， 而 是 讨论 当前 的 安全 状态 。Apache 
开源 社区 已 经 投入 了 大 量 的 精力 来 将 Hadoop 栈 与 诸如 Active Directory, LDAP 和 Kerberos 等 
标准 安全 解决 方案 集成 在 一 起 ， 以 实现 身份 验证 。 对 于 不 同 的 处 理 引 擎 而 言 ， 各 种 数据 集 的 用 
户 授权 现在 都 可 以 使 用 Apache Ranger 完成 。Apache Ranger 还 提供 了 Hadoop 审计 功能 。 此 外 ， 
在 Hadoop 中 存储 的 数据 可 以 使 用 HDFS 透明 数据 加 密 〈HDFS Transparent Data Encryption ) 
进行 保护 ， 并 且 可 以 使 用 SSL/TCL 等 安全 协议 在 互联 网 上 进行 加 密 。 我 们 将 在 本 章 稍 后 详细 讨 
论 这 些 解决 方案 。 


10.3 Hive 的 安全 性 


Hive 项 目 最 初 是 为 了 在 Hadoop 中 使 用 SQL 编写 处 理 作 业 ， 而 无 须 编写 复杂 的 Java 代码 实 
现 MapReduce, 在 Hive 诞 生 之 时 ，Hadoop 还 没有 与 现 有 的 企业 安全 解决 方案 进行 集成 。 从 那 之 
后 发 生 了 很 多 变化 , 尤其 是 在 如 何 控制 Hive 授权 访问 方面 。 下面 看 一 下 Hive 中 的 各 种 授权 模式 。 


10.3.1 默认 授权 模式 


这 也 称 为 遗留 授权 模式 。 这 是 在 Hive 0.10.0 版 本 之 前 唯一 可 用 的 授权 模式 。 这 种 模式 存在 许 
多 安全 漏洞 ， 因 此 不 太 适 合 提供 安全 的 环境 。 就 其 工作 而 言 ， 它 非常 类 似 于 关系 数据 库 。 和 关系 
数据 库 一 样 ， 它 也 有 用 户 / 组 和 角色 的 概念 。 可 以 为 某 个 分 组 添加 某 些 特权 ， 然 后 将 该 分 组 指派 
给 特定 用 户 或 组 。 默 认 情 况 下 ， 当 用 户 在 该 模式 下 创建 表 时 ,创建 表 的 人 并 没有 被 授予 特权 。 

这 种 授权 模式 可 以 通过 在 hive-site.xml 文件 中 将 hive. security.authorization.enabled 的 但 
修改 为 true 来 局 用 ， 如 下 所 示 。 
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'* «property» 
«name»hive.security.authenticator.manager«/name» 
«value»org.apache.hadoop.hive.ql.security.ProxyUserAuthenticator«/value» 
«/property» 


«property» 
«name»hive.security.authorization.enabled«/name» 
<value>true</value> 

</property> 


<property> 
«name»hive.security.authorization.manager«/name» 
«value»org.apache.hadoop.hive.ql.security.authorization.plugin.sqlstd. 
SQLStdConfOnlyAuthorizerFactory</value> 

</property> 


这 种 模式 与 RDBMS 风格 的 授权 非常 相似 。 对 访问 的 管理 分 为 多 个 不 同 的 层级 ， 比 如 用 户 、 
分 组 和 角色。 这 种 授权 模式 还 具有 其 他 一 些 属性 ， 用 于 控制 在 创建 新 表 时 用 户 、 分 组 和 角色 获得 
的 默认 特权 。 


10.3.2 ”基于 存储 的 授权 模式 


Hive 的 后 续 版 本 添加 了 基于 存储 的 授权 模式 。 它 依赖 于 HDFS (EI Hadoop 的 文件 系统 ) 的 
权限 模型 。 在 这 种 类 型 的 安全 模型 中 ,HDFS 权限 是 一 个 单一 事实 来 源 , 而 Hive 仅仅 依赖 于 该 单 
一 事实 来 源 确定 是 否 应 该 将 访问 权限 授予 用 户 请 求 。 当 用 户 试图 访问 某 个 表 时 , Hive 会 检查 文件 
系统 中 底层 目录 的 权限 ， 以 控制 对 Hive 对 象 的 安全 性 。 

可 以 通过 在 hive-site.xml 中 设置 以 下 属性 来 启用 基于 存储 的 授权 模式 。 


<property> 
«name»hive.security.metastore.authenticator.manager«/name» 
«value»org.apache.hadoop.hive.ql.security.HadoopDefaultMetastoreAuthenticator«/value» 
«/property» 


«property» 
«name»hive.security.metastore.authorization.auth.reads«/name» 
<value>true</value> 

</property> 


<property> 
«name»hive.security.metastore.authorization.manager«/name» 
«value»org.apache.hadoop.hive.ql.security.authorization. 
StorageBasedAuthorizationProvider«/value» 

«/property» 


«property» 
«name»hive.server2.allow.user.substitution«/name» 
<value>true</value> 

</property> 


由 于 Hive CLI 已 被 弃 用 ， 大 多 数 用 户 将 通过 使 用 Beeline 或 使 用 JDBC/ODBC 的 其 他 工具 连 
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接 到 HiveServer2。 要 在 此 授权 模式 下 工作 ， 还 需要 将 另 一 个 名 为 hive.server2.enable.doAs 的 
参数 设置 为 true。 


<property> 
«name»hive.server2.authentication.spnego.keytab«/name» 
«value»HTTP/ HOST@EXAMPLE . COM« /value» 
«/property» 


«property» 
«name»hive.server2.authentication.spnego.principal«/name» 
«value»/etc/security/keytabs/spnego.service.keytab«/value» 

«/property» 


«property» 
«name»hive.server2.enable.doAs«/name» 
«value»true«/value» 

«/property» 


«property» 
«name»hive.server2.logging.operation.enabled«/name» 
«value»true«/value» 

«/property» 


这 个 参数 决定 了 HiveServer2 执行 查询 时 所 用 的 最 终 用 户 身份 。 当 它 被 设置 为 true AY, 
HiveServer2 将 作为 经 过 身份 验证 的 用 户 执行 查询 ; 否则 ， 它 将 使 用 启动 HiveServer2 进程 的 用 户 
ID， 这 在 大 多 数 情 况 下 都 是 Hive. 

如 采用 户 还 需要 直接 访问 HDFS 中 的 数据 文件 ， 并 使 用 其 他 的 处 理 方式 (如 Pig、Spark， 甚 
至 MapReduce ) 来 运行 其 他 作业 ， 这 种 授权 模式 也 是 适用 的 。 | 

HDFS ACL 为 管理 文件 层级 的 访问 提供 了 极 大 的 灵活 性 。 如 果 用 户 只 需要 使 用 SQL 进行 访 
问 ， 则 使 用 基于 SQL 标准 的 授权 模式 即 可 。 


10.3.3 ”基于 SQL 标准 的 授权 模式 


这 种 授权 模式 提供 了 一 种 方法 ， 可 以 控制 比 基 于 存储 的 授权 更 细 层 级 的 访问 。 如 果 Hive 用 
户 连接 到 HiveServer2， 并 且 只 需要 使 用 SQL 访问 数据 ， 那 么 这 就 是 推荐 的 授权 模式 。 在 这 种 模 
式 下 ， 你 可 以 在 列 、 视 图 层级 上 控制 访问 ， 因 为 HiveServer2 API 可 辨识 行 和 列 的 概念 。 这 还 提 
供 了 一 种 可 以 与 Apache Ranger 集成 的 机 制 ， 用 于 定义 管理 访问 的 策略 。 我 们 将 在 本 章 稍 后 讨论 
Ranger 的 Hive 插件 。 

为 了 局 用 这 种 安全 模式 ， 你 需要 在 hive-site.xml 中 设置 以 下 参数 。 


<property> 
<name>hive.security.authorization.manager</name> 
<value>org.apache.hadoop.hive.ql.security.authorization.plugin.sqlstd. 
SOLStdConfOnlyAuthorizerFactory«/value» 

«/property» 


«property» 
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«name»hive.server2.doAs«/name» 
«value»false«/value» 
«/property» 


«property» 
«name»hive.security.metastore.authenticator.manager«/name» 
<value>org.apache.hadoop.hive.ql.security.HadoopDefaultMetastoreAuthenticator</value> 
</property> 


<property> 
<name>hive.security.metastore.authorization. auth. reads</name> 
<value>true</value> 

</property> 


一 般 的 最 佳 实践 是 仅 允 许 用 户 通 过 HiveServer2 访问 ， 并 限制 可 以 运行 的 用 户 代 码 和 非 SQL 
命令 。 当 用 户 提 交 请 求 时 ， 将 检查 其 特权 ， 但 实际 查询 是 作为 Hive 服务 器 用 户 执行 的 。 你 还 应 
该 在 HDFS 层级 上 锁定 对 实际 数据 的 访问 权限 ， 只 对 Hive 服务 器 用 户 授予 权限 。 如 果 有 其 他 用 
户 不 需要 通过 SQL 访问 ， 而 只 需要 在 HDFS 层级 上 访问 这 些 文件 ， 就 可 以 为 他 们 创建 ACL. 


10.3.4 管理 通过 SQL 进行 的 访问 


就 像 使 用 标准 SQL 一 样 ， 你 可 以 使 用 特权 、 用 户 、 和 角色 和 对 象 来 管理 Hive 中 的 访问 控制 , 
给 用 户 和 角色 授 子 特权。 用 户 属 于 一 个 或 多 个 角色 ， 他 们 可 以 启用 角色 。 在 Hive 中 可 以 授予 的 
特权 有 ALTER, DROP, INDEX, LOCK, SELECT, INSERT, UPDATE, DELETE, CREATE 和 ALL 等 。 如 果 


你 熟悉 标准 SQL ,那么 你 会 发 现 管理 Hive 中 特权 的 命令 与 之 非常 类 似 。 现 在 我 们 来 看 一 些 在 Hive 
中 为 各 种 对 象 创建 和 管理 特权 的 示例 。 0 
首先 创建 一 个 数据 库 : 


CREATE DATABASE TEST; 


现在 我 们 在 TEST 数据 库 中 创建 一 个 新 表 : 


USE TEST; 
CREATE TABLE TESTING (A INT, B STRING); 


授予 用 户 JOHN 对 TESTING X SELECT 特权 : 


GRANT SELECT on TABLE TESTING TO USER JOHN; 


验证 TESTING 表 上 做 的 所 有 GRANT 操作 : 


SHOW GRANT ON TABLE TESTING; 

验证 向 用 户 JOHN 授予 的 所 有 特权 : 

SHOW GRANT USER JOHN ON ALL; 

你 可 以 使 用 SET ROLE 命令 为 用 户 启 用 角色 : 
SET ROLE BI ROLE; 

也 可 以 在 表 的 列 层级 上 提供 授权 : 
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GRANT SELECT ON TABLE TESTING COLUMN A TO USER SCOTT; 


你 可 以 为 表 启 用 分 区 层级 的 特权 ， 然 后 控制 那些 分 区 级 的 特权 。 


CREATE TABLE TESTING (A INT, B STRING) PARTITIONED BY (state string); 
ALTER TABLE TESTING SET TBLPROPERTIES (‘PARTITION LEVEL PRIVILEGE'='TRUE'); 
GRANT SELECT ON TABLE TESTING PARTITION (state-'NY') to USER SCOTT; 


将 数据 装载 到 表 中 需要 UPDATE 特权 。 


GRANT UPDATE on TABLE TESTING TO USER JOHN; 
LOAD DATA INPATH '/tmp/hive/testing.csv' into TABLE TESTING; 


就 像 标准 SQL 一 样 ， 你 可 以 使 用 GRANT OPTION 和 ADMIN OPTION 来 为 角色 授予 特权 。 这 允许 
接受 特权 的 用 户 将 这 些 特权 授予 另 一 用 户 。 | 


10.4 使 用 Ranger 进行 Hive 授权 


Apache Ranger 是 一 种 用 于 跨 Hadoop 平台 启用 、 监 视 和 管理 综合 数据 安全 性 的 框 届 。Ranger 
只 是 帮助 Hadoop 管理 员 处 理 各 种 安全 管理 任务 。 它 提供 了 一 种 机 制 来 管理 来 自 各 种 组 件 的 单个 
面板 的 安全 性 。 使 用 Ranger， 你 可 以 控制 对 Hadoop 生态 系统 各 个 组 件 的 细 粒 度 访问 。 如 图 10-1 
所 示 ， 它 有 一 组 内 置 插件 ， 集 成 了 各 种 处 理 引 擎 ， 包 括 Hive。 当 用 户 使 用 连接 到 HiveServer2 的 
客户 端 运行 查询 时 ，Ranger 的 Hive 插件 (与 HiveServer2 集成 ) 将 基于 访问 策略 池 (使 用 Ranger 
控制 面板 进行 定义 ) 对 特权 进行 评估 。 


图 10-1 Ranger 架构 


从 图 10-1 的 架构 可 以 看 到 ，Ranger 有 一 个 管理 门户 ， 你 可 以 使 用 它 来 为 不 同 的 组 件 定 义 各 
种 策略 。 它 还 有 一 个 内 置 的 策略 服务 器 ， 其 中 维护 了 所 有 已 定义 的 策略 。Ranger 将 这 些 策略 存储 
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在 策略 数据 库 中 ， 而 该 数据 库 目 前 部 署 在 一 个 RDBMS 中 。Ranger 也 有 一 个 内 置 的 审计 服务 需 ， 
我 们 将 在 本 章 稍 后 讨论 它 。 | 


$B ”本章 假设 你 已 经 在 自己 的 演示 环境 中 安装 了 Ranger. 安装 和 集成 Ranger 4 Active Directory/ 
LDAP 超 出 了 本 书 的 讨论 范围 。 相 关内 容 在 Apache Ranger W 3b ATER, PvAih it Hi 
https://cwiki.apache.org/confluence/display/RANGER/Apache+Ranger+0.5.0+Installation 访问 
本 章 的 重点 是 在 Ranger 中 定义 Hive 访问 策略 ,然后 通过 检查 审计 记录 来 验证 其 是 否 被 强 
制 执行 。 


10.4.1 访问 Ranger 用 户 界面 


你 可 以 使 用 以 下 URL 访问 Ranger 用 户 界面 : http://rangerserver:6080。 
当 你 登录 到 Ranger 用 户 界 面 时 ,主页 列 出 了 各 种 业 单 以 及 可 以 使 用 Ranger 创建 的 策略 类 型 ， 
如 图 10-2 所 示 。 


anger Uaa naj Audit Setting: gg admin 


10-2 Ranger 用 户 界面 


10.4.2 创建 Ranger 策略 


遵循 以 下 步骤 在 Ranger 用 户 界 面 中 创建 一 个 新 策略 。 
(1) 单 击 Hive 下 的 策略 组 名 称 。 如 图 10-3 所 示 ， 这 将 会 显示 已 有 的 Hive 策略 列表 。 
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Ranger O Access Manager 


| Servite Manager > 


List of Policies : sandbox hive 


Q, Seurch for your policy 


Policy ID Policy Name Audit Logging Groups Users Action 
sandbox_hive-1-201508191 25811 Enabled | = c EN 
sandbox hive-2-20150819125812 | Enabied | C c EH 
Hive Globa! Tables Allow c=) CE = c E 

‘ Hive Global UDF Aiow = = c3 2 © | 
Cali Details Table [Disabled | enable aca o E 
Customer. Detaiis, Tabie Cm EH 
Hive Demo Table Loader c XN 
Hive Demo UOF Loader Enae 1 c EH 


图 10-3 Ranger 中 的 策略 列表 


—— a 


tate t 
add eut OE TTS ES, 
Ma Camu, * 
ÀJ wet 
) apunte 
Drs roten Create 
Drop 
Ae 
Audi 1 
« QE = 
Lock 
User and Group Permissions : AD 
o SeectDeveet AB. E. 
Per rantur , Celegete 
IVA. M, y -— 
nh AO Operni ie * id 


图 10-4 创建 一 个 新 的 Ranger 策略 
(3) 在 Add New Policy 窗口 中 提供 以 下 详细 信息 。 
你 想 要 指派 给 该 新 策略 的 名 称 。 
定义 此 环 略 的 数据 库 的 名 称 ; 当 针 对 所 有 数据 库 时 ， 可 选择 *。 


C] Policy Name 
C Hive Database 
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Q Table/UDF 一 一 表 /UDF 的 名 称 ; 当 针 对 所 有 表 /UDF 时 为 *。 
Q Hive Column 一 一 该 列 用 于 控制 列 层级 的 访问 。 
口 Audit Logging 一 一 这 个 参数 非常 重要 ， 因 为 它 决 定 了 该 策略 所 定义 的 访问 是 否 应 该 被 审计 ， 
口 User and Group Permissions 一 一 这 是 你 为 用 户 或 组 定义 访问 类 型 的 地 方 。 你 甚至 可 以 将 管 
理 职责 委托 给 用 户 ， 这 样 他 就 可 以 进一步 管理 该 对 象 的 访问 。 
一 旦 你 填写 了 如 图 10-5 所 示 的 所 有 细节 并 定义 了 策略 ， 这 些 控件 就 会 在 Hive 中 的 相关 对 象 
上 强制 执行 。 


Description 
User and Group Permissions i T 
Permissions Select Group Select User Permissions Delegate Admin 
Marketing Semet User — A “v a 


图 10-5 ”添加 新 Ranger 策略 的 详情 


注意 ”如果 局 用 了 Ranger Hive 插件 ， 并 且 使 用 SQL 中 的 GRANT 命令 授予 了 任何 特权 ，Ranger 
将 自动 为 你 创建 Ranger 策略 。 当 你 要 运行 一 个 脚本 来 创建 Hive 对 象 并 为 它们 授权 时 , 这 
就 非常 有 用 了 。 


10.4.3 ”使 用 Ranger 审计 


如 前 所 述 ， 你 还 可 以 使 用 Ranger 审计 各 种 类 型 的 访问 。Ranger 有 一 个 内 置 的 审计 服务 天 ， 
它 为 部 署 的 每 个 插件 收集 所 有 审计 数据 。 只 要 你 创建 的 策略 被 标记 为 Audit Enabled, Ranger 将 审 
计 所 有 访问 并 存储 记录 。 然 后 ， 你 可 以 使 用 Ranger 用 户 界 面 来 查看 这 些 记 录 。 

要 查看 Ranger 审计 记录 ,请 单 击 菜单 栏 中 的 Audit 选项 。 然 后 你 将 看 到 最 近 的 审计 记录 列表 ， 
如 图 10-6 所 示 。 
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R a nge y ^ Xhons Manager e Semngs RA adman 


Ch jy wma mane 04/24/2016 


Last Updated Time c 
Servier 
Policy 10 voti Tier * ser | Mame / Type Rnsource Mame necans Type Roms Atoms Enforcer = ClientiP — Event Count 
2 04/24/2016 01:38:22 PM areitan it is a fimphsivelambyari-qa/3afe^See343-4.— ALL tangeret (6235 t I 
à 04/24/2016 0538116 PM a Amplhise/ambari-qa/dafbS6hue-e3a3«&.— WRITE rapier arch 1003358 — 1 
2 04/24/2016 01:38:14 PM armibari-qa ee Strat embod/ Salbe 2409-4, WRITE pimai rangeraci 100218. 1 
" 04/24/2016 01 38b 10 PM tive hes Peripatetic Bal 90/0 4224-41 A, WRITE ranger act (02$ 1 
P 04/24/2016 01:30:30 PM hive aa immpftiveihitve Bali T0010-224-4f Y y. wert CMM) rangera 109238 t 
2 04/24/2018 01:38:10 PM hive MUS nmpihie/hive Bal T90f0-0224-8 tA, ALL rangera Waas 4 
2 04/24/2016 01:37:14 PM armibari-q uS Amp/hivelambar«qufcactoAg-ecada AL CM)  rargerac (60235 1 
7 04/24/2016 01:32:13 PM armisari-qu nd PN AEM AEAEE A., WRITE rangera (2r 4 
; 04/24/2016 01:37:13 PM ibark- eee Amprtien/ambari-qa/GAcATA3-e CARA, WRITE EOM neas (5215 — 1 
à 04/24/2018 01:37:09 PM hive ee Porip/hivtfhive/5366650-3792-4483-9... ALL Cm) cange 100.215 a 


图 10-6 Fit Ranger 中 的 审计 记录 


你 可 以 使 用 Audit 页 面 上 的 各 种 选项 来 岂 选 这 些 记 录 。 
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Hive 的 未 来 


Hive 的 未 来 是 一 份 增强 和 改进 的 路 线 图 。 
本 草 的 主题 如 下 。 

C Hive LLAP ( Live Long and Process ) 
Q Hive-on-Spark 

Q Hive: ACID 和 MERGE 

口 可 调 隔 离 等 级 

口 ROLAP/ 基 于 立方 体 的 分 析 

口 HiveServer2 引擎 


注意 ”本 章 对 Hive 不 久 的 将 来 进行 展望 


11.1 LLAP 


对 亚 秒 级 查询 的 需求 要 求 快速 的 查询 执行 和 降低 整个 生态 系统 内 任务 的 设置 成 本 ,Hive 的 挑 
战 就 是 完成 这 一 任务 ， 同 时 不 影响 用 户 对 未 来 分 布 式 解决 方案 所 要 求 的 规模 和 灵活 性 
LLAP ( Live Long and Process ) 是 一 种 有 竺 未 来 验证 的 方法 ， 它 利用 Tez 和 一 种 新 引擎 形成 
混合 引擎 ， 它 是 Hive 下 一 阶段 的 目标 。 
LLAP 是 一 个 在 多 个 节点 上 运行 的 增强 守护 进程 ， 它 负责 以 下 内 容 。 
Q 通过 数据 在 内 存 中 的 压缩 柱状 数据 ( 堆 外 存储 ) 副本 来 对 查询 进行 缓存 和 数据 回收 。 这 
是 迄今 为 止 最 重要 的 速度 改进 。 
OQ 采用 多 线程 执行 方式 读 取 后 进 先 出 的 谓词 和 Hive 生态 系统 中 的 散 列 连接 。 增 强 任 务 分 配 
和 DAG 创建 。 
O fry frit IO 使 用 Async IO Elevator， 每 个 磁盘 使 用 专用 线程 和 核 ， 用 更 高 效 的 处 理解 决 
方案 提高 现 有 环境 的 使 用 效率 。 
a 跨 应 用 程序 的 细 粒 度 列 级 安全 性 。Hive 将 在 没有 其 他 安全 解决 方案 开销 的 情况 下 变 得 越 
来 越 安全 。 
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通过 委托 方式 ，YARN 可 负责 LLAP 上 的 工作 负载 管理 。 查 询 将 有 关 授 权 资 源 分 配 的 信息 从 
YARN 传输 到 LLAP。 然 后 ，LLAP 进程 将 分 发 辅助 资源 ， 以 根据 YARN 的 指令 来 辅助 查询 。 

混合 引擎 方式 通过 高 效 的 内 存 数据 缓存 和 低 延 迟 处 理 获 得 快速 响应 ， 由 节点 驻 留 进程 交付 。 
在 查询 处 理 的 初始 阶段 要 有 效 地 限制 LLAP 的 使 用 , 这 意味 着 当 在 数据 库 之 上 对 整个 查询 进行 这 
种 处 理 时 ，Hive 避 开 了 协调 、 工 作 负 载 管理 和 故障 隅 离 等 方面 的 向 见 限 制 。 


11.2 Hive-on-Spark 


Apache Spark 正在 迅速 发 展 成 为 面向 Hadoop 数据 处 理 的 MapReduce 的 继承 者 。 成 功 的 整合 
将 会 使 Spark 生态 系统 已 有 的 巨大 发 展 直接 开放 给 Hive。 
最 大 的 发 展 在 于 Spark 的 深度 学 习 能 力 , 利 用 Spark 和 TensorFlow 对 解决 方案 不 断 进 行 研究 ， 
将 为 Hive 解决 方案 提供 新 的 能 力 ， 使 之 通过 Hive-on-Spark 栈 来 利用 这 些 成 果 。 
机 器 学 习 已 经 迅速 发 展 成 为 通过 挖掘 大 数据 获得 实用 见解 的 关键 一 环 。MLlib 是 在 Spark 之 
上 构建 的 一 个 可 扩展 的 机 需 学 习 库 ， 它 提供 了 高 质量 的 算法 。 


11.3 Hive: ACID 和 MERGE 


在 不 久 的 将 来 ，Hive 将 通过 添加 额外 的 功能 来 支持 ACID 事务 处 理 。 

这 些 功 能 如 下 。 

口 INSERT, UPDATE 和 DELETE 

Q 快照 隔离 

a 流 式 援引 

在 不 久 的 将 来 ，Hive 将 支持 把 MERGE 作为 标准 ， 将 Upsert 功能 引入 到 Hive 中 。 这 是 确保 数 
据 仓库 生态 系统 有 效 和 高 效 工 作 的 一 项 重要 改进 。 

以 下 ACID 文 持 功能 也 将 进入 本 地 Hive. 

C) BEGIN TRANSACTION 

Q COMMIT 

C) ROLLBACK 


使 Hive 有 ACID 保障 是 一 项 巨大 的 成 就 ， 因 为 Hive 已 经 成 功 地 用 于 企业 级 事务 处 理 。 
11.4 可 调 隔离 等 级 


Hive 锁 管理 器 将 改善 ， 以 促进 事务 层级 隔离 的 数据 事务 处 理 。 这 将 推动 Hive 数据 处 理 调 优 
的 发 展 ， 使 之 针对 特殊 情况 具有 最 好 的 隅 离 性 。 
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11.5 ROLAP/ 基 于 立 万 体 的 分 析 


我 们 预期 ， 未 来 在 Hive 中 可 以 近 实 时 地 分 析 数 十 亿 条 记录 。Hive 将 可 能 使 用 复杂 、 多 维 的 
分 割 和 切片 能 力 ， 与 关系 型 在 线 分 析 人 处理 ( ROLAP ) 针锋相对 。 

这 将 使 你 可 以 选择 在 Hive 里 构建 Kimball 总 线 架 构 和 企业 信息 工厂 结构 。 

Hive 将 能 够 在 分 布 式 生态 系统 上 生成 SQL 接口 和 MDX 接口 ， 轻 松 地 生成 基于 立方 体 的 分 
br. 并 且 不 会 对 整个 系统 的 性 能 产生 负面 影响 。 


11.6 HiveServer2 的 发 展 


Hive 客户 端 将 与 HiveServer2 通过 处 理 多 用 户 会 话 的 JDBC/ODBC 连接 进行 互 连 ， 未 来 每 
个 用 户 会 话 交 付 时 都 有 一 个 不 同 的 线程 。 新 的 Hive 引擎 可 以 大 幅 提 高 核心 Hive 生态 系统 的 可 
伸缩 性 。 

HiveServer2 将 使 用 异步 线程 支持 长 时 间 运 行 的 会 话 , 这 将 加 速 Hive 集群 中 数据 的 导入 和 移动 

HiveServer2 的 舱 入 式 元 存储 将 执行 以 下 任务 。 

O 从 MetastoreDB 中 获取 统计 信息 和 模式 

Q 编译 查询 

OQ 生成 查询 执行 计划 

O 提交 查询 执行 计划 

O 将 查询 结果 返回 给 客户 病 


11.7 ”面向 不 同 工 作 负载 的 多 个 HiveServer2 实例 


未 来 Hive 将 能 够 以 动态 方式 适应 不 同 的 工作 负载 。 
多 个 HiveServer2 实例 有 以 下 用 途 。 

口 将 Zookeeper 用 于 负载 均衡 和 高 可 用 性 

O 运行 多 个 设置 不 同 的 应 用 程序 


注意 Hive 将 参与 分 布 式 数据 处 理 生态 系统 未 来 架构 的 构建 ， 并 且 演 变 成 其 中 一 个 主要 组 件 


通过 熟练 掌握 Hive 处 理 技能 ， 你 也 使 目 己 的 未 来 有 了 保障 。 


建立 大 数据 团队 是 一 项 基本 需求 , 可 以 为 确保 生产 作业 和 现 有 项 目的 维护 工作 取得 成 功 , 尽 
到 业务 职责 

本 附录 的 目标 如 下 。 

口 描述 创建 Hive 解决 方案 所 需 的 基本 角色 和 需求 

口 定义 高 效 团队 必需 的 最 小 角色 分 组 

D 确定 应 该 指派 哪些 人 负责 解决 方案 中 的 哪些 元 素 

实现 一 个 最 优 的 解决 方案 并 且 让 团队 获得 影响 力 需要 时 间 和 奉献 。 


A.1 最 小 团队 
一 个 成 功 的 团队 至 少 需要 下 面 这 些 角色 。 
A.1.1 执行 团队 
执行 团队 是 大 数据 团队 和 其 他 业务 环节 之 间 的 主要 纽带 。 


高 级 赞助 商 
高 级 赞助 商 提供 了 完成 和 维护 大 数据 计划 的 商业 战略 。 


他 们 确保 团队 在 完成 项 目 工作 的 过 程 中 可 以 实现 商业 价值 。 他 们 确保 任务 能 够 增值 , 并 且 能 
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他 们 负责 使 大 数据 解决 方案 能 够 被 董事 会 视 为 商业 资产 /服务 。 和 企业 资产 负债 表 中 罗列 的 


任何 其 他 资产 一 样 ， 大 数据 解决 方案 也 必须 被 视 为 重要 商业 资产 。 
A.1.2 业务 团队 

业务 团队 是 构成 大 数据 计划 业务 支持 结构 的 工作 人 员 。 

1. 大 数据 主管 /大 数据 负责 人 


大 数据 主管 负责 整个 大 数据 计划 ,确保 高 级 赞助 商 的 战略 得 以 落实 。 这 个 人 要 确保 所 有 支撑 
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功能 准备 就 绪 ， 保 证 将 来 服务 的 顺利 交付 。 | 
主管 负责 的 技术 团队 承担 着 大 数据 解决 方案 当前 及 今后 的 设计 、 交 付 和 部 署 工 作 。 


2. 内 部 业务 开发 人 员 和 分 析 人 员 

业务 开发 人 员 和 分 析 人 员 是 日 常 业务 工作 中 实施 运营 性 和 战术 性 大 数据 工作 的 人 员 , 他 们 确 
保 日 第 业务 活动 能 够 广 持 长 期 成 略 。 

这 些 人 实施 和 交付 解决 方案 的 日 弟 业 务 活动 。 


A.1.3 ”技术 团队 


技术 团队 负责 大 数据 解决 方案 的 所 有 技术 支持 。 他们 增加 新 的 解决 方案 并 且 维 护 已 有 的 解决 
方案 。 


1. Hive 架构 师 

Hive 架构 师 是 系统 的 技术 领航 人 。 他 们 确保 用 有 效 且 高 效 的 解决 方案 来 文 持 战略 的 设计 、 开 
发 和 交付 。Hive 架构 师 确保 提供 完整 的 内 部 办 公 需 求 , 使 解决 方案 在 技术 上 是 合理 的 。 他 们 还 保 
证 今后 的 创新 性 变更 不 会 对 当前 的 解决 方案 造成 不 利 影响。 

2. Hive 管理 员 

Hive 管理 员 确 保 大 数据 集群 的 运行 保持 有 效 且 高 效 的 水 平 ,他 们 保证 集群 能 够 按照 设计 实现 
所 有 技术 功能 。 


3. 数据 工程 师 

数据 工程 师 设计 、 开 发 和 部 署 Hive 的 抽取 -转换 -装载 过 程 、 报 表 开 发 、 数 据 分 析 和 数据 建 
模 等 功能 。 

他 们 辅助 架构 师 实现 对 解决 方案 的 关键 修改 , 将 团队 战略 具体 化 为 解决 方案 。 他 们 是 解决 方 
案 各 组 件 的 创造 者 。 


A.2 扩展 团队 

当 一 个 项 目的 规模 不 断 增长 时 , 团队 要 开始 扩展 以 支持 更 多 专家 的 参与 。 现 在 要 分 派 特 定 人 
群 到 解决 方案 的 特定 部 分 。 这 些 专 家 将 完成 实现 商业 战略 所 必需 的 工作 。 
A.2.1 业务 团队 

业务 团队 是 构成 业务 支持 结构 的 工作 人 员 ， 面 向 当前 正在 扩展 的 大 数据 计划 。 


1. 需求 专业 人 士 /领域 专家 
专家 在 特定 业务 领域 帮助 团队 ， 确 保 特 定 领 域 的 业务 需求 受到 解决 方案 日 常 处 理 的 保护 ， 
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2. 统计 学 家 /数据 科学 家 
使 用 高 级 数据 处 理 方法 必然 需要 精通 数据 处 理 方法 论 和 统计 分 析 解 决 方案 的 专家 。 
他 们 使 用 可 重复 和 可 验证 的 方法 ,确保 数据 处 理 涉及 对 业务 知识 的 增值 转换 。 


A.2.2 技术 团队 


技术 团队 负责 大 数据 解决 方案 的 技术 支持 。 他 们 增加 新 的 解决 方案 并 且 维 护 已 有 的 解决 方案 。 


1. 业务 分 析 师 

更 大 的 团队 现在 增加 了 更 多 的 内 部 业务 开发 人 员 和 分 析 人 员 , 但 是 处 理 特定 业务 需求 任务 的 
角色 分 工 更 加 精细 了 。 

业务 分 析 师 确保 来 目 专业 人 士 /领域 专家 的 需求 得 以 准确 记录 ， 并 且 转 换 成 为 功能 性 需求 和 
非 功 能 性 需求 ， 用 作 开 发 团队 的 指南 。 

大 型 团队 将 雇用 多 个 业务 分 析 师 。 我 们 建议 项 目 经 理 将 这 些 专 业 人 士 按 每 5~8 人 分 为 一 组 ， 
每 一 组 指定 一 位 资深 和 人士 来 管理 日 常 工作 。 


2. 数据 架构 师 

数据 架构 师 负 责 构 建 分 析 系 统 的 数据 架构 。 

这 个 人 要 使 用 信息 技术 规程 来 设计 、 开 发 、 部 署 和 管理 分 析 型 数据 架构 。 

数据 架构 师 可 以 决定 Hive 系统 对 数据 的 存储 、 使 用 、 集 成 和 管理 方式 。 

在 最 佳 团 队 结 构 中 应 该 只 有 一 位 数据 架构 师 。 然 而 ,对 于 大 型 项 目 来 说 ， 如 果 成 员 之 间 能 够 
协调 配合 犹如 一 体 ， 那 么 最 多 可 以 让 3 个 人 来 承担 这 一 职能 。 


3. 技术 架构 师 

技术 架构 师 仅 负责 分 析 系 统 的 服务 器 架构 。 

他 们 按照 Hive 架构 师 所 设计 的 那样 ， 使 用 信息 技术 规程 来 设计 、 开 发 、 部 署 和 管理 分 析 型 
服务 融 架 构 。 

在 最 优化 配置 中 应 该 只 有 一 位 技术 架构 师 。 然 而 ， 对 于 大 型 项 目 来 说 ， 如 果 成 员 之 间 能 够 协 
调配 合 犹 如 一 体 ， 也 可 以 让 一 个 最 多 由 5 个 人 构成 的 小 组 来 承担 这 一 职能 。 


4. Hive 开发 人 员 

Hive 开发 人 员 是 为 解决 方案 设计 、 开 发 和 部 署 所 有 Hive 代码 的 技术 专家 。 数 据 工程 师 将 数 
据 架 构 编 写成 Hive 代码 。 而 Hive 开发 人 员 则 专门 针对 具体 环境 来 优化 这 些 Hive 代码 ， 通 过 增 
加 一 些 额 外 的 最 优化 措施 来 改进 Hive 代码 。 

大 型 团队 会 用 到 多 位 Hive 开发 人 员 。 我 们 建议 项 目 经 理 将 这 些 专业 人 士 按 每 5-8 人 分 为 一 
组 ， 让 一 位 资深 入土 来 管理 日 和 党 工作 。 


5. 可 视 化 开发 人 员 
可 视 化 开发 人 员 是 为 解决 方案 设计 、 开 发 和 部 署 可 视 化 组 件 的 技术 专家 。 
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大 型 团队 可 使 用 多 个 可 视 化 开发 人 员 。 我 们 建议 项 目 经 理 将 这 些 专 业 人 士 按 每 5-8 人 分 为 一 
组 ,并 且 让 一 位 资深 入 土管 理 日 常 工作 。 | 


6. 质保 检测 员 

质保 检测 员 负 责 测试 系统 , 防止 分 析 型 解决 方案 出 现 缺陷 , 同时 避免 癌 用 户 交 付 的 服务 出 现 
缺陷 。 

大 型 团队 可 以 用 到 多 个 检测 员 。 我 们 建议 项 目 经 理 将 这 些 专业 人 士 按 每 5-8 人 分 为 一 组 ,并 
且 指 定 一 位 资深 入 士 管理 日 常 工作 。 


7. 培训 人 员 
培训 人 员 帮 助 用 户 了 解 分 析 型 解决 方案 为 文 持 业 务 而 设计 的 功能 。 


8. 技术 文档 撰写 人 
技术 文档 撰写 人 是 编写 技术 文档 的 专业 文员 ， 这 些 技术 文档 可 以 帮助 用 户 理解 和 使 用 分 析 型 
解决 方案 。 


9. 基础 设施 工程 师 

基础 设施 工程 师 负 责 服务 右 的 安 六 、 升 级 和 维护 。 

在 大 型 安装 部 和 署 中 ， 这 一 专业 责任 通常 会 外 包 给 第 三 方 供应 商 。 

在 Hive 解决 方案 的 场合 中 通常 使 用 云 服务 ， 这 意味 着 基础 设施 的 供应 可 以 耻 接 回 云 提供 商 
按 需 请 求 。 

大 数据 主管 要 指派 恰当 的 负责 人 来 确保 Hive 解决 方案 被 某 一 服务 等 级 协议 覆盖 。 

请 记 住 ， ea 无 劳 贷 ， 要 以 有 效 且 高 效 的 方式 交付 价值 并 且 确 保 成 功 
ACT 


祝愿 你 的 团队 今后 在 从 事 Hive 解决 方案 相关 的 工作 时 能 有 好 运 。 


A.3 团队 的 工作 生命 周期 


团队 应 该 采用 敏捷 计划 ,用 两 个 10 天 冲刺 来 加 入 新 功能 ， 然后 再 用 一 个 10 天 冲刺 来 实施 版 
本 维护 。 

如 果 可 能 的 话 , 不 要 在 维护 版 本 的 同一 冲刺 期 内 实施 代码 的 新 功能 版 本 。 这 确保 了 业务 能 体 
验 到 维护 版 本 的 真正 影响 。 

使 用 30 天 的 生命 周期 可 以 确保 针对 业务 的 新 解决 方案 定期 交付 ， 同 时 也 支撑 起 了 一 个 健康 
日 不 断 演进 的 Hive 架构 。 


Hive Heft f —- gcn TER PRB 

本 附录 的 目标 如 下 。 

O 重点 强调 基本 的 Hive PRA 

D 解释 每 个 困 数 的 简单 用 法 

Q 使 你 基本 理解 如 何在 数据 解决 方案 中 使 用 这 些 曙 数 
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B.2 ”数学 函数 


返回 类 型 描述 

double 对 double ffi a 四 舍 五 人 ， 返 回 bigint 型 值 

double 对 double {A a 四 舍 五 人 ， 返 回 double 型 值 ， 并 且 保 留 d 位 小 数 
bigint 返回 小 于 或 等 于 double ffi a 的 最 大 bigint 型 值 


bigint ceil(double a), ceiling(double a) 返回 大 于 或 等 于 double 值 a 的 最 小 bigint 型 值 


double rand(), rand(int seed) 返回 从 0 到 1 均匀 分 布 的 随机 数 ( 逐 行 变化 ) 。 根据 指定 的 种 子 ， 
生成 一 个 确定 的 随机 数 序列 
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返回 类 型 


double 
double 
double 
double 
double 
double 


double 
string 


string 


string 


string 


double 
int 
double 
double 
double 
double 
double 
double 
double 
double 
double 
int 
double 
int 
double 
float 
double 
double 
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pow(double a, double p), 
power(double a, double p) 


sqrt(double a) 


bin(bigint a) 


conv(bigint num, int from base, 
int to base), conv(STRING num, 
int from base, int to base) 


abs(double a) 


描 述 
返回 e 的 a 次 方 值 ， 在 此 e 是 自然 对 数 的 底数 
返回 参数 的 目 然 对 数 
返回 参数 以 10 为 底 的 对 数 
返回 参数 以 2 为 底 的 对 数 
返回 参数 a 以 base 为 底 的 对 数 
返回 a 的 p 次 方 


返回 a 的 平方 根 
以 二 进 制 形 式 返 回 数值 


如 果 参 数 为 int 值 ，hex 函数 以 十 六 进 制 字符 串 形式 返回 数值 
否则 , 如 果 数 值 是 一 个 字符 串 , 该 函数 将 每 个 字符 转换 成 其 十 六 
进 制 表示 并 且 返 回 结 果 字 符 串 


hex 函数 的 逆 函 数 。 将 每 对 字符 解释 为 一 个 十 六 进 制 数 ， 并 且 将 
它们 转换 成 数字 表示 形式 的 字符 


将 一 个 数 从 给 定 进 制 转换 成 男 一 不 同 进 制 


返回 绝对 值 
返回 a EW b 的 余数 的 正 值 


返回 a 的 正弦 值 (a 用 弧度 表示 ) 
如 果 -1<=ax<=1， 则 返回 x 的 反正 弱 值 ， 和 否则 返回 null 
返回 a 的 余弦 值 (a 用 弧度 表示 ) 
如 果 -1<=a<=1， 则 返回 x 的 反 余弦 值 ， 否 则 返回 null 


对 所 有 a 和 -a 值 返 回 -a 


返回 double {É a 的 符号 ， 返 回 值 为 1.0 或 者 -1.0 
JA [n] 8$ RC e 的 值 
返回 常数 pi 的 值 
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ARAM 


返回 类 型 名 称 〔 识 别 标志 ) fi 述 


int 

int 
array<K> 
array<V> 
boolean 


array<t> 


B.4 


返回 


binary 


返回 type 所 定义 


返回 Map 型 结构 中 的 元 素 个 数 

返回 数组 型 结构 中 的 元 素 个 数 
返回 一 个 未 排序 数组 ， 其 中 含有 输入 Map 的 刍 
返回 一 个 未 排序 数组 ， 其 中 含有 输入 Map 的 值 
如 果 数组 中 含有 value， 则 返回 true 


sort_array(Array<T>) 按照 数组 元 素 的 自然 次 序 对 输入 数组 进行 升序 排序 并 返回 


类 型 转换 函数 
类 型 | 名 称 (识别 标志 ) | LE 


binary(string|binary) | 将 输入 参数 转换 为 二 进 制 值 
将 表达 式 expr 的 结果 转换 成 type 类 型 ; 例如 cast('1' as BIGINT) 会 


cast(expr as <type>) 


的 类 型 将 字符 串 '1' 转 换 成 bigint 型 的 表示 。 如 果 转 换 失 败 ， 则 返回 null 
B.5 HRA 
返回 类 型 名 称 《〈 识 别 标 志 jx 
string from unixtime(bigint unixtime 将 UNIX 时 刻 ( 1970-01-01 00:00:00 UTC ) 表示 的 秒 数 转换 成 
[, string format]) deo CH A FH BEA LF AZ EY Al) B NT fH] A EB, 格式 为 

"1970-01-01 00:00:00" 

TU GRAN 

bigint unix timestamp(string date) 将 yyyy-MM-dd HH:mm: ss 格式 的 字符 串 转换 成 UNIX BERI, An 
果 失 败 则 返回 0, 例如 unix timestamp ('2009-03-20 11:30:01' ) 
= 1237573801 

bigint unix timestamp(string date, string | 按照 给 定 模式 将 时 间 字 符 串 转换 成 UNIX HERR, GRAMM 

pattern) 返回 0。 例 如 unix timestamp('2009-03-20', 'yyyy-MM-dd') = 

1237532400 

string to date(string timestamp) 返回 一 个 时 间 截 字符 串 的 日 期 部 分 。 例 如 to date("1970-01-01 
00:00:00") = "1970-01-01" 

int year(string date) 返回 一 个 日 期 字符 串 或 时 间 戳 字符 串 的 年 份 部 分 。 例 如 
year("1970-01-01 00:00:00") = 1970, year("1970-01-01") = 
1970 

int month(string date) 返回 一 个 日 期 字符 串 或 时 间 惟 字符 串 的 月 份 部 分 。 例 如 
month("1970-11-01 00:00:00") = 11, month("1970-11-01") = 11 

int day(string date) dayofmonth(date) 返回 一 个 日 期 字符 串 或 时 间 戳 字符 串 中 的 “日 ”部 分 ， 例 如 
day("1970-11-01 00:00:00") = 1, day("1970-11-01") = 1 

int hour(string date) 返回 时 间 惟 中 的 小 时 ， 例 如 hour('2009-07-3012:58:59') = 12, 
hour(" 12:58:59") = 12 

int minute(string date) 3 [ead Ay fa PY oP 
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( 5 ) 

返回 类 型 Ber GRATE) i: 述 

int second(string date) Ua |n eS [a] ex P B p 

int weekofyear(string date) 返回 时 间 戳 字符 串 中 的 周 数 ， 例 如 weekofyear("1970-11-01 

00:00:00") = 44, weekofyear("1970-11-01") = 44 

int datediff(string enddate, string 返回 从 startdate 到 enddate 的 天 数 ， 例 如 datediff('2009- 
startdate) 03-01', '2009-02-27') = 2 

string date add(string startdate, int days) | 为 日 期 startdate 增 加 days K, fil 4 date _add(' 2008-12-31", 1) 

‘ = '2009-01-01' 
string date sub(string startdate, int days) | 将 日 期 startdate 减 去 days 天 ， 例 如 date sub('2008-12-31', 
1) = '2008-12-30' 

timestamp | from utc timestamp(timestamp, WREE UTC HR, RE HR A EISE XT Ta] ER 
string timezone) 

timestamp | to utc timestamp(timestamp, 如 果 给 定时 间 戳 是 给 定时 区 的 ,将 其 转换 为 UTC scm pa] gt 
string timezone) 

B.6 RHR 

返回 类 型 名 称 〔 识 别 标志 ) jü R 

T if(boolean testCondition, T valueTrue, T | 当 测 试 条 件 testCondition 为 真 时 返回 valueTrue, 否则 
valueFalseOrNull) 返回 valueFalseOrNull 

T COALESCE(T vi, T v2, ...) 返回 第 一 个 不 为 NULL 的 v， 如 果 所 有 v 的 值 都 为 NULL 

则 返回 null 

T CASE a WHEN b THEN c [WHEN d THEN e]* | 当 a=b 时 返回 c; 当 a=d 时 则 返回 e; 否则 返回 下 
[ELSE f] END 

T CASE WHEN a THEN b [WHEN c THEN d]* | 当 a=true 时 返回 b; “4 c-true 时 返回 d; 否则 返回 e 


[ELSE e] END 


B.7 ZF RAA 


返回 类 型 AER GRAVES) i: 述 


Y 返回 字符 下 str ERE ASCI f 


string concat(string|binary ea o dida cen oh 返回 生成 的 字符 串 或 
— 字 节 码 。 例 如 ，concat('foo'，'bar') 的 结果 是 'foobar' 。 请 注意 ， 
ge Sa t BERT IRE UH HO AER ii i 
array<struct | context ngrams(array«array | 给 定 一 个 “上 上 下文” 字符 串 ， 从 一 个 标记 化 句子 集合 返回 前 k 个 有 上 
<string, <string>>, array<string>, 下 文 关系 的 N 连 字符 
double>> int K, int pf) 
string concat_ws(string SEP, 和 concat() 类 似 ， 只 不 过 使 用 了 定制 的 分 隔 符 SEP 
string A, string B...) 
string concat_ws(string SEP, 和 concat ws() 类 似 ， 只 不 过 是 将 一 个 字符 数组 作为 参数 


array<string>) 


返回 类 型 


int 


string 


string 


boolean 


int 


int 


int 


string 


string 


string 


array<struct 


<string, 


double»» 


string 


string 


string 
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(x ) 
名 称 《〈 识 别 标志 ) jt yh 
返回 str 在 strlist 中 第 一 次 出 现 的 位 置 , 其 中 strList 是 一 个 用 逗号 
隔 开 的 字符 串 。 任 何 一 个 参数 为 null 则 返回 nul1。 如 果 第 一 个 参数 含 
有 逗号 则 返回 0。 例 如 find in set("ab'，'abc,b,ab,c,def') 返 回 3 


format_number(number x, 将 数字 x B ARH, i in PORES, 四 舍 五 人 到 d 位 小 数 并 
int d) 且 以 字符 串 形 式 返 回 结果 。 如果 d 为 0, 则 结果 没有 小 数 点 或 小 数 部 分 


基于 指定 的 ISON 路 径 , 从 ISON 字符 串 中 抽取 ISON MA, 并 且 返 回 
该 抽取 ISON XJ 28 8 ISON 字符 串 ,如 果 输 入 的 JSON 字符 串 是 无 效 的 ， 
则 该 函数 将 返回 null. JSON 路 径 只 能 含有 字符 [0-9a-z ]， 也 就 是 说 不 
能 出 现 大 写字 和 母 或 特殊 字符 。 同 样 ， 键 也 不 能 以 数字 开头 。 这 是 由 于 
Hive 列 名 的 限制 


in file(string str 如 果 字 符 串 str 是 filename 文件 中 的 一 整 行 ， 那么 返回 true 
string filename) 


instr(string str 返回 substr 在 str 中 首次 出 现 的 位 置 


) 
string substr) 


length(string A) 返回 字符 串 的 长 度 


find in set(string 


str, string strList) 


get json object(string 
json string, string path) 


locate(string substr, 返回 在 str 字符 串 的 pos 位 置 之 后 首次 出 现 substr 的 位 置 

string str[, int pos]) 

lower(string A) 返回 将 字符 串 A 中 所 有 字符 转换 成 小 写字 母后 形成 的 字符 串 。 例 如 

lcase(string A) lower('fOoBaR ' ) 将 返回 字符 串 'foobar ' 

lpad(string str, 用 字符 串 pad 从 字符 串 str 的 最 左边 开始 填补 ,使 其 长 度 达到 len 并 返 

int len, string pad) lal str . 

ltrim(string A) 将 字符 串 A 中 从 最 左边 开始 的 所 有 空格 去 掉 并 返回 结果 。 例 如 ，1trim 
(' foobar ') 的 结果 是 'foobar' 

ngrams(array«array 从 一 个 带 标记 的 语句 ( 例如 那些 由 sentences() 函 数 返 回 的 句子 ) 集合 


. Eh r an pn sar / . 4 rp ^ ANE 
«string»», int N, 中 返回 前 k 个 N 连 字 符 。Hive fi] AE LEA PRL ( UDAF ) 


int K, int pf) 


parse url(string 返回 从 URL 中 抽取 的 指定 部 分 。partToExtract 的 合法 取 值 包括 HOST., 
PATH, QUERY, REF, PROTOCOL, AUTHORITY, FILE 和 USERINF0。 例 如 ， 
parse url('http://facebook.com/path1/p.php?k1-v18k2-v2tfRef1', 
'HOST' ) 将 返回 'facebook.com' 。 同 样 ， 也 可 以 按照 第 3 个 参数 中 提供 的 
键 来 抽取 QUERY 中 的 某 个 特定 键 的 值 。 例 如 ，parse_url('http:// 
facebook .com/path1/p.php?k1=v1&k2=v2#Ref1', 'QUERY', 'k1' fi [n] ' vi ' 


按照 printf 风格 的 格式 对 输入 字符 串 格式 化 并 返回 
Obj... args) 


regexp extract (string 返回 使 用 pattern 抽取 的 字符 串 。 例 如 ，regexp extract('foothebar'， 
subject, 'foo(.*?)(bar)'，2) 将 返回 'bar' 。 请 注意 在 使 用 预定 义 的 字符 类 时 要 
tri ttern, int ind 小 心 一 些 : AMER \s' ENE 2 个 参数 将 匹配 字母 s; 而 's' 则 必须 
string pattern, int Inde) | 用 于 匹配 空 自 字符 ,参数 index 是 Java 正 则 表达 式 匹 配器 group() 方 法 
的 索引 


urlString, 
string partToExtract|[, 
string keyToExtract]) 
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返回 类 型 


string 


string 


string 


string 


string 


array<array 


<string>> 


string 


array 


map<string, 


string> 


string 


string 


string 


string 


string 
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名 称 《 识 别 标 志 


regexp replace(string 


INITIAL STRING, 
string PATTERN, 
String REPLACEMENT) 


repeat(string str, 
int n) l 
reverse(string A) 


rpad(string str, 


int len, string pad) 
rtrim(string A) 


sentences (string 


str, [string lang], 
[string locale]) 


split(string str, string 
pat) 
str to map(text 


[,delimiter1, delimiter2]) 


substr(string|binary A, 
int start) 


substring(string|binary 
A ,int start) 


substr(string|binary A, 
int start, int len) 
substring(string|binary 


A, int start, int len) 


translate(string 


input, string from, 


string to) 


trim(string A) 


upper(string A) 
ucase(string A) 


( £x ) 
fi xh 
将 字符 串 INITIAL STRING 中 所 有 与 PATTERN 中 定义 的 Java 正则 表达 式 
语法 相 匹 配 的 子 串 替换 为 REPLACEMENT 中 的 实例 并 返回 结果 。 例 如 ， 
regexp_replace("foobar"，"o0|ar","") 返 回 'fb'。 请 注意 在 使 用 预定 
义 字 符 类 时 有 必要 小 心 一 些 : 例如 使 用 '\s' 作 为 第 2 个 参数 将 匹配 字 
Hk s; 而 's' 则 必须 用 于 匹配 空白 字符 


将 str BH nik 


返回 颠倒 的 字符 串 


从 最 右边 开始 用 字符 串 pad 填充 字符 串 str, 使 之 长 度 达 到 len 并 返回 
结果 


将 字符 串 A 后 面 (右边 ) 的 空格 全 部 去 掉 并 返回 结果 。 例 如 rtrim 
(' foobar “) 的 结果 为 'foobar' 

将 一 个 自然 语言 文本 标记 化 为 单词 和 句子 ,将 每 个 句子 在 恰当 的 断 句 
处 断 开 , 并 且 返 回 一 个 单词 数组 。 参 数 lang 和 locale 都 是 可 选 的 。 例 
fl, sentences('Hello there! How are you?') 将 返回 ( ("Hello", 
"there"),("How", "are", "you") ) 


返回 一 个 含有 mn 个 空格 的 字符 串 
按照 正则 表达 式 pat 来 分 割 字 符 串 str 


使 用 两 个 分 隔 符 将 文本 分 割 成 键 / 值 对 。delimiter1 将 文本 分 割 成 键 / 
值 对 ， 而 delimiter2 则 将 每 个 键 / 值 对 分 隅 开 。 默 认 情 况 下 ， 分 隔 符 
delimiter1 为 ,， 而 delimiter2 为 = 

返回 字符 串 (或 者 字 节 数组 ) A 的 子 串 (或 片段 ) M start 位 置 开 始 
直到 A 的 末尾 。 例 如 ，substr('foobar' ，4) 的 结果 是 'bar' 


返回 字符 串 (或 者 字 节 数组 ) A 的 子 串 (或 片段 ) , 从 start 位 置 开 始 ， 
截取 长 度 为 lean。 例 如 ，substr('foobar'， 4, 1) 的 结果 为 'b' 


转 写 字符 串 input, 将 其 中 在 from 字符 串 中 出 现 的 字符 替换 为 to 字符 
串 中 对 应 的 字符 。 这 和 PostgreSQL 中 的 转 写 函数 类 似 。 如 果 该 UDF 
的 任意 参数 为 nul1， 则 最 终结 果 也 为 null 


将 字符 串 A 前 后 出 现 的 所 有 空格 都 去 掉 。 例 如 ，trim(' foobar “) 的 
结果 是 'foobar' 


将 字符 串 A 中 的 所 有 字符 都 转换 成 大 写字 母 并 返回 。 例 如， 
upper ( ' fOoBaR ' ) 的 结果 为 'FOOBAR' 


double 
double 


double 
double 
double 
double 
double 
double 
double 
double 
double 
double 


array<double> 


double 


array<double> 


array<struct{'x','y'}> 


array 
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名 称 《〈 识 别 标志 Jj 述 
hash(a1(, 82...]) 返回 参数 的 散 列 值 


色 称 《识别 标志 ) 描 xh 
count(*), count(expr), count(#) 返 回 当 前 检索 到 的 总 行 数 , 包括 所 有 含有 null 
count(DISTINCT expr[,expr .]) | 值 的 行 。count(expr) 返 回 表达 式 expr 的 值 非 null 的 行 
数 。count(DISTINCT expr[, expr ,]) 返 回 表达 式 (可 

以 为 多 个 ) 去 重 后 非 null 的 行 数 


sum(col), sum(DISTINCT col) 返回 某 一 分 组 中 各 元 素 的 和 , 或 者 对 分 组 中 列 的 值 去 重 
后 求 和 并 返回 

avg(col), avg(DISTINCT col) 返回 分 组 中 元 素 的 平均 值 , 或 者 返回 分 组 中 列 的 不 同 值 
的 平均 值 


返回 分 组 中 列 的 最 小 值 
返回 分 组 中 列 的 最 大 值 
返回 分 组 中 数值 型 列 的 方差 
返回 分 组 中 数值 型 列 的 无 偏 样本 方差 
JA 
i: 


返回 分 组 中 数值 型 列 的 标准 偏差 
stddev_samp(col) 回 分 组 中 数值 型 列 的 无 偏 样本 标准 差 
返回 分 组 中 一 对 数值 型 列 的 总 体 协 方差 
返回 分 组 中 一 对 数值 型 列 的 样本 协 方差 
返回 分 组 中 一 对 数值 型 列 的 皮尔 逊 相 关系 数 


percentile(BIGINT col, p) 返回 分 组 中 列 的 精确 的 第 p 百 分 位 数 ( 不 能 用 于 浮 点 类 

j 型 ) 。p 必须 在 0 和 1 之 间 。 注 : BER AAMAR f 
计算 整数 值 。 如 果 输 入 不 是 整数 ， 请 使 用 PERCENTILE_ 
APPROX 


返回 分 组 中 列 的 精确 的 第 pi. 、p2... 百 分 位 数 ， 不 能 用 
于 浮 点 类 型 。pi 必须 在 0 和 1 之 间 。 注 : 真正 的 百 分 位 
数 只 能 计算 整数 值 。 如 果 输 入 是 非 整数 ， 则 使 用 
PERCENTILE_APPROX 


返回 分 组 中 数值 型 列 ( 包括 浮 点 类 型 ) 的 近似 第 p 百 分 
位 数 。B 参数 在 内 存 为 代价 控制 近似 精度 。 较 高 的 值 产 
生 更 好 的 近似 程度 ， 默认 值 为 10000。 当 col 中 不 同 值 
的 个 数 小 于 8 时， 这 将 给 出 精确 的 百 分 位 数值 
percentile approx(DOUBLE col, | 与 上 面相 同 , 但 接受 并 返回 一 个 百 分 位 数值 数组 ， 而 不 
array(p1 [, p2]...) [a 8]) 是 单个 值 

histogram numeric(col, b) 使 用 b 个 非 均 匀 间 隔 的 仓 计算 分 组 中 数值 型 列 的 直方 
图 。 输 出 是 一 组 大 小 为 b 的 double 型 (x,y) 坐 标 ， 代 表 
仓 的 中 心 和 高 度 


AT LR 


X 


percentile(BIGINT col, 
array(p1 [, p2]...)) 


percentile approx(DOUBLE col, 
p [, BJ) 
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B.10 ĦMPEXAŽ (UDF) 


CREATE FUNCTION [db name. ]function_name AS class name 
[USING JAR|FILE|ARCHIVE ‘file uri’ [, JAR|FILE|ARCHIVE ‘file uri'] ]; 


该 语句 通过 class name Gi]£& —^ P eR RL. USING 子 句 指定 的 JAR, SCPC ARS i HLL RS BS 
加 到 环境 中 。 “4 Hive SHAMS APR ALT, 这 些 资源 将 被 添加 到 环境 中 , 就 好 像 执行 ADD JAR/FILE 
一 样 。 如 果 Hive 不 是 本 地 模式 ， 则 资源 位 置 必须 是 一 个 非 本 地 URI， 例 如 一 个 HDFS 位 置 。 

该 也 数 将 被 添加 到 指定 的 数据 库 中 , 或 者 在 创建 该 国 数 时 添加 到 当前 数据 库 中 。 可 以 通过 和 完 
全 限定 函数 名 (db name.function name) 来 引用 该 函数 。 如 果 该 也 数 在 当前 数据 库 中 ， 则 可 以 在 没 
有 限定 的 情况 下 引用 该 限 数 。 

掌握 Hive 内 置 函 数 的 使 用 以 及 这 些 函 数 构 造 的 排列 链条 ， 对 于 熟练 掌握 Hive 非常 重要 。 

这 些 都 是 你 的 数据 工具 。 | 

有 条 不 亲 地 练习 使 用 它们 ， 可 以 使 你 成 长 为 Hive 数据 处 理 的 专家 。 

要 获取 最 新 的 参考 列表 ， 请 参见 以 下 网 址 。 

https://cwiki.apache.org/confluence/display/Hive/LanguageManual 


面 对 与 日 俱 增 的 海量 数据 ， 能 否 从 中 提取 商业 价值 直接 关乎 公司 的 市 场 竞争 力 。 Hive 是 大 数据 生 
太 圈 必 不 可 少 的 数据 仓库 ， 它 为 存储 在 Hadoop 文 件 系统 中 的 数据 提供 便捷 的 类 SQL 查 询 、 统计 和 分 
析 ， 从 而 为 公司 进入 大 数据 生态 圈 并 迈 向 商业 智能 铺 平 意 路 。 


本 书 着 眼 于 Hive 在 真实 环境 中 的 应 用 ， 内 容 吉 括 Hive 的 方 万 面向 ， 是 针对 大 数据 分 析 人 员 的 实践 
参考 指南 。 
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